📘 Les outils de l’intelligence artificielle
L’IA utilise des algorithmes d’apprentissage machine (machine learning) qui s’entraînent sur de grandes quantités de données pour faire des prédictions (régression) ou classer des individus (classification). La méthode bayésienne permet de calculer des probabilités a posteriori. La qualité des données d’apprentissage conditionne la fiabilité et l’absence de biais.
📐 Catégories d’apprentissage en IA
| Type | Principe | Exemples |
|---|---|---|
| Apprentissage supervisé | Données étiquetées par des humains → paramètres du modèle ajustés | Détection d’objets dans une image, tri de CV |
| Apprentissage non supervisé | Détecte des régularités/proximités sans intervention humaine | Regroupement de photos de fleurs similaires |
| Apprentissage par renforcement | Agent apprend par système de récompenses dans un environnement | AlphaGo (champion du monde au jeu de go) |
📐 Phases de l’apprentissage machine
1️⃣ Phase d’apprentissage (entraînement) : l’algorithme ajuste ses paramètres sur des données connues pour minimiser l’erreur de prédiction.
2️⃣ Phase de test : calcul de l’erreur de prédiction sur des données non utilisées lors de l’entraînement → vérification de la cohérence avant déploiement.
3️⃣ Phase d’inférence (prédiction) : le modèle est appliqué sur de nouvelles données inconnues pour prédire un résultat.

📐 Régression et classification
1️⃣ Régression linéaire : ajustement d’un nuage de points par une droite y = ax + b.

• La droite est déterminée par la méthode des moindres carrés (minimise la somme des carrés des écarts).
• Application : prix d’une maison de 50 m² = 100 004 × 50 + 176 = 5 000 376 €… (valeur extrapolée).
2️⃣ Classification (k plus proches voisins) : classer un point inconnu dans la catégorie majoritaire parmi ses k plus proches voisins.

📐 La méthode bayésienne
P(A|B) = [P(B|A) × P(A)] / P(B)
P(A|B) = probabilité de A sachant B (probabilité a posteriori)
• Permet de réviser une probabilité a priori en fonction d’une observation.
• Application : filtrage des spams — calcul de la probabilité qu’un e-mail soit un spam s’il contient un mot donné.
P(S|M) = [P(M|S) × P(S)] / [P_S(M) × P(S) + P_nonS(M) × (1 − P(S))]
Si P(S|M) > seuil → message classifié comme spam.
📐 La qualité des données d’apprentissage
Pour éviter les biais, les données doivent être :
• Exactes (qualité) : sans erreurs ni manipulations malveillantes.
• Suffisamment nombreuses (quantité) : échantillon représentatif.
• Représentatives (diversité) : couvrir l’ensemble des cas possibles.
⚠️ Exemple : L’IA de recrutement d’Amazon discriminait les femmes pour les postes techniques car les données d’entraînement reflétaient le biais sexiste historique des embauches d’ingénieurs.
💡 À retenir
• 3 types d’apprentissage : supervisé (données étiquetées), non supervisé (régularités auto-détectées), par renforcement (récompenses).
• 3 phases : apprentissage → test → inférence.
• Régression : prédit une valeur numérique (droite ajustée sur nuage de points).
• Classification k-NN : classe un point selon la majorité de ses k plus proches voisins.
• Bayes : P(A|B) = P(B|A) × P(A) / P(B) → filtre anti-spam.
• Biais dans les données → prédictions biaisées → décisions discriminantes.