Partie I · Fondations : comprendre l'IA avant les LLM

Apprendre des données : machine learning & deep learning

Chapitre 222 min de lecture

2.1Le changement de paradigme : programmer ou apprendre

L'apprentissage automatique (en anglais machine learning) inverse la logique. On ne fournit plus les règles : on fournit des exemples (des milliers de courriels déjà étiquetés « spam » ou « pas spam »), et c'est la machine qui découvre elle-même les règles qui permettent de les distinguer. On ne programme plus le quoi faire ; on programme le comment apprendre.

Schéma2.1. Le renversement fondamental. La machine ne reçoit plus les règles : elle les apprend à partir d'exemples. Le produit de cet apprentissage s'appelle un modèle.

2.2Trois manières d'apprendre

L'apprentissage automatique se décline en trois grandes familles, qu'il faut bien distinguer car elles reviennent partout dans la suite.

Schéma2.2. Les trois grandes familles d'apprentissage.

2.3Le neurone artificiel et les réseaux

Schéma2.3. Un réseau de neurones « profond ». L'information circule de gauche à droite, de couche en couche. « Profond » (deep) signifie simplement : qui comporte de nombreuses couches cachées. C'est de là que vient le terme deep learning (apprentissage profond).

2.4Comment une machine apprend : coût et rétropropagation

À force de répéter, l'erreur diminue, et le réseau devient compétent. L'image la plus parlante est celle d'une randonnée dans le brouillard pour descendre une vallée : on ne voit pas le fond, mais on sent la pente sous ses pieds, et l'on fait un pas vers le bas. En répétant, on finit par atteindre un point bas. Cette « pente », en mathématiques, s'appelle le gradient, et la méthode s'appelle la descente de gradient.

Schéma2.4. La boucle d'apprentissage. Répétée des milliards de fois sur d'immenses jeux de données, elle transforme un réseau aléatoire en un modèle compétent.

2.52012 : le big bang du deep learning

Pourquoi 2012 et pas avant ? Parce que les trois carburants manquants (chapitre 1) sont enfin réunis :

  • Les données : ImageNet fournit le gigantesque jeu d'images étiquetées qui manquait.
  • Le calcul : AlexNet est entraîné sur des GPU de la société NVIDIA. Ces puces, conçues pour calculer en parallèle les pixels des jeux vidéo, se révèlent idéales pour les multiplications massives des réseaux de neurones. Ce détail technique aura des conséquences géopolitiques colossales : il fera de NVIDIA l'une des entreprises les plus valorisées du monde (chapitre 8).
  • Les algorithmes : des raffinements (fonction d'activation ReLU, technique de régularisation dropout) permettent d'entraîner des réseaux plus profonds sans qu'ils déraillent.

2.6Voir et lire : CNN et RNN

2.7Représenter le sens : les plongements (embeddings)

L'astuce géniale : on apprend ces nombres de telle sorte que les mots de sens proche occupent des positions proches dans l'espace. « Chat » et « chien » se retrouvent voisins ; « roi » et « banane » sont éloignés. Le sens devient géométrie.

Plus fort encore : les directions de l'espace capturent des relations. L'exemple devenu célèbre (issu du modèle word2vec, 2013) est presque magique :

roi − homme + femme ≈ reine

Autrement dit, le vecteur qui relie « homme » à « roi » est à peu près le même que celui qui relie « femme » à « reine ». La machine a découvert, toute seule et sans qu'on le lui dise, le concept abstrait de royauté et celui de genre, simplement en observant comment les mots s'emploient dans des milliards de phrases.

Schéma2.5. Un fragment de graphe de connaissances. Le savoir y est explicite et vérifiable : chaque fait est une relation nommée entre deux entités, lisible aussi bien par une machine que par un humain.

C'est la forme moderne de la représentation symbolique des connaissances (chapitre 1), et c'est ce qui structure en coulisse de nombreux moteurs de recherche (leurs encarts de réponse). Sa force est la précision et la traçabilité (on sait d'où vient chaque fait) ; sa faiblesse, qu'il faut le construire et le maintenir à la main. D'où l'intérêt croissant pour les approches neuro-symboliques, qui marient la souplesse des réseaux de neurones et la rigueur des graphes : un LLM peut interroger un graphe de connaissances pour ancrer ses réponses dans des faits vérifiés (une variante structurée de la génération augmentée par récupération, chapitre 6), et réduire ainsi ses hallucinations.

2.8Les trois ingrédients de l'IA moderne

Schéma2.6. La triade fondamentale. Aucun des trois ne suffit seul. C'est leur conjonction, à partir des années 2010, qui a rendu l'IA moderne possible, et c'est la course à ces trois ressources qui structure aujourd'hui l'économie et la géopolitique du secteur.

Cette triade éclaire toute la suite du cours :

  • La quête des données soulève les questions de propriété intellectuelle et de vie privée (chapitres 21 et 25).
  • La quête du calcul explique la valorisation de NVIDIA, la guerre des puces et la facture énergétique (chapitres 8 et 10).
  • La quête des algorithmes est l'objet de la compétition acharnée entre laboratoires (chapitre 7), et son prochain grand bond, le Transformer, est le sujet du chapitre suivant.

2.9Le cerveau et la machine : une analogie féconde et trompeuse


À retenir (chapitre 2)

  • L'apprentissage automatique renverse la programmation classique : on ne fournit plus les règles, on fournit des exemples, et la machine apprend les règles. Le résultat s'appelle un modèle.
  • Trois familles : apprentissage supervisé (avec corrigé), non supervisé (sans corrigé), par renforcement (essais-erreurs).
  • Un réseau de neurones empile des neurones artificiels en couches ; « profond » signifie « à nombreuses couches » (deep learning).
  • L'apprentissage se fait par descente de gradient et rétropropagation : on mesure l'erreur, puis on corrige chaque poids d'un petit pas pour la réduire.
  • 2012 (AlexNet/ImageNet) marque le big bang du deep learning, rendu possible par la conjonction données + GPU + algorithmes.
  • Les plongements (embeddings) transforment le sens en géométrie : c'est le pont conceptuel vers les grands modèles de langage.
  • Toute IA moderne repose sur une triade : données, calcul, algorithmes.

Nous voici prêts à franchir le seuil. Au chapitre 3, nous racontons l'innovation de 2017 qui a fait sauter les verrous du langage et donné naissance à l'ère des grands modèles : le Transformer.