II — Les outils de l'intelligence artificielle

L’intelligence artificielle — Enseignement Scientifique Terminale

📘 Les outils de l’intelligence artificielle

L’IA utilise des algorithmes d’apprentissage machine (machine learning) qui s’entraînent sur de grandes quantités de données pour faire des prédictions (régression) ou classer des individus (classification). La méthode bayésienne permet de calculer des probabilités a posteriori. La qualité des données d’apprentissage conditionne la fiabilité et l’absence de biais.

📐 Catégories d’apprentissage en IA

Type	Principe	Exemples
Apprentissage supervisé	Données étiquetées par des humains → paramètres du modèle ajustés	Détection d’objets dans une image, tri de CV
Apprentissage non supervisé	Détecte des régularités/proximités sans intervention humaine	Regroupement de photos de fleurs similaires
Apprentissage par renforcement	Agent apprend par système de récompenses dans un environnement	AlphaGo (champion du monde au jeu de go)

📐 Phases de l’apprentissage machine

1️⃣ Phase d’apprentissage (entraînement) : l’algorithme ajuste ses paramètres sur des données connues pour minimiser l’erreur de prédiction.
2️⃣ Phase de test : calcul de l’erreur de prédiction sur des données non utilisées lors de l’entraînement → vérification de la cohérence avant déploiement.
3️⃣ Phase d’inférence (prédiction) : le modèle est appliqué sur de nouvelles données inconnues pour prédire un résultat.

Schéma de la phase d'inférence d'un algorithme de classification : après la phase d'apprentissage (sur des photos étiquetées 'chat' / 'pas chat'), le modèle est appliqué à de nouvelles photos non étiquetées. Il produit une prédiction (probabilité que la photo contienne un chat) pour chaque image. — *Phase d’inférence : le modèle entraîné prédit la classe d’une nouvelle image non vue lors de l’apprentissage*

📐 Régression et classification

1️⃣ Régression linéaire : ajustement d’un nuage de points par une droite y = ax + b.

Nuage de points et régression linéaire pour prédire le prix de vente d'une maison en fonction de sa superficie : maison A (30 m², 306 000 €), B (60 m², 595 000 €), C (70 m², 688 700 €), D (85 m², 862 100 €). La droite de régression linéaire calculée par tableur donne l'équation y = 100 004x + 176. On peut ainsi prédire le prix d'une maison dont on connaît la superficie. — *Régression linéaire : prix d’une maison en fonction de sa superficie → droite y = 100 004x + 176*

• La droite est déterminée par la méthode des moindres carrés (minimise la somme des carrés des écarts).
• Application : prix d’une maison de 50 m² = 100 004 × 50 + 176 = 5 000 376 €… (valeur extrapolée).

2️⃣ Classification (k plus proches voisins) : classer un point inconnu dans la catégorie majoritaire parmi ses k plus proches voisins.

Graphique illustrant la classification par les k plus proches voisins (k-NN) : on cherche à classer le salaire d'une personne (point bleu) en fonction de son âge en trois catégories (rouge = moyen, jaune = haut, vert = élevé). On sélectionne les 5 plus proches voisins du point bleu : 3 sont rouges, 2 sont jaunes. Le point bleu est classé 'rouge' (catégorie majoritaire parmi les voisins). — *Classification k-NN : le point bleu est classé dans la catégorie majoritaire parmi ses 5 plus proches voisins*

📐 La méthode bayésienne

P(A|B) = [P(B|A) × P(A)] / P(B)
P(A|B) = probabilité de A sachant B (probabilité a posteriori)

• Permet de réviser une probabilité a priori en fonction d’une observation.
• Application : filtrage des spams — calcul de la probabilité qu’un e-mail soit un spam s’il contient un mot donné.
P(S|M) = [P(M|S) × P(S)] / [P_S(M) × P(S) + P_nonS(M) × (1 − P(S))]
Si P(S|M) > seuil → message classifié comme spam.

📐 La qualité des données d’apprentissage

Pour éviter les biais, les données doivent être :
• Exactes (qualité) : sans erreurs ni manipulations malveillantes.
• Suffisamment nombreuses (quantité) : échantillon représentatif.
• Représentatives (diversité) : couvrir l’ensemble des cas possibles.

⚠️ Exemple : L’IA de recrutement d’Amazon discriminait les femmes pour les postes techniques car les données d’entraînement reflétaient le biais sexiste historique des embauches d’ingénieurs.

💡 À retenir

• 3 types d’apprentissage : supervisé (données étiquetées), non supervisé (régularités auto-détectées), par renforcement (récompenses).
• 3 phases : apprentissage → test → inférence.
• Régression : prédit une valeur numérique (droite ajustée sur nuage de points).
• Classification k-NN : classe un point selon la majorité de ses k plus proches voisins.
• Bayes : P(A|B) = P(B|A) × P(A) / P(B) → filtre anti-spam.
• Biais dans les données → prédictions biaisées → décisions discriminantes.

Assistance

Entreprise

Juridique