Apprendre des données : machine learning & deep learning

2.1Le changement de paradigme : programmer ou apprendre

L'apprentissage automatique (en anglais machine learning) inverse la logique. On ne fournit plus les règles : on fournit des exemples (des milliers de courriels déjà étiquetés « spam » ou « pas spam »), et c'est la machine qui découvre elle-même les règles qui permettent de les distinguer. On ne programme plus le quoi faire ; on programme le comment apprendre.

Schéma2.1. Le renversement fondamental. La machine ne reçoit plus les règles : elle les apprend à partir d'exemples. Le produit de cet apprentissage s'appelle un modèle.

2.2Trois manières d'apprendre

L'apprentissage automatique se décline en trois grandes familles, qu'il faut bien distinguer car elles reviennent partout dans la suite.

Schéma2.2. Les trois grandes familles d'apprentissage.

En clair

, avec des analogies :

Apprentissage supervisé : apprendre avec un professeur qui corrige. On montre à l'élève des milliers d'exercices accompagnés de leur corrigé. Il en déduit une méthode générale, qu'il appliquera ensuite à des exercices inédits. C'est la forme la plus répandue : reconnaissance d'images, traduction, prédiction de prix.
Apprentissage non supervisé : explorer sans corrigé. On donne à l'élève un tas de documents sans aucune indication, et on lui demande d'y mettre de l'ordre : regrouper ce qui se ressemble, repérer ce qui détonne. C'est ainsi qu'on segmente une clientèle ou qu'on détecte une fraude bancaire (une transaction « anormale »).
Apprentissage par renforcement (en anglais reinforcement learning, RL) : apprendre par essais et erreurs. L'élève agit dans un environnement, reçoit une récompense quand il réussit, une pénalité quand il échoue, et ajuste peu à peu son comportement pour maximiser ses récompenses. C'est ainsi qu'on entraîne une IA à jouer, à piloter un robot, et, nous le verrons, à rendre les LLM utiles et polis.

Repère

Au-delà des trois grands modes (transfert, bayésien, AutoML, apprentissage actif)

Les trois familles ci-dessus ne disent pas tout ; plusieurs idées transversales complètent la boîte à outils. L'apprentissage par transfert (transfer learning) consiste à réutiliser un modèle déjà entraîné sur une grande tâche comme point de départ d'une tâche voisine, plutôt que de repartir de zéro : c'est exactement le principe du pré-entraînement puis de l'ajustement des grands modèles (chapitre 3), et la raison pour laquelle on n'a plus besoin de millions d'exemples pour chaque nouveau problème. Les méthodes bayésiennes raisonnent en probabilités : au lieu d'une réponse unique, elles estiment une incertitude (« 70 % de chances que... »), précieuse quand se tromper coûte cher (médecine, finance). L'AutoML (et la recherche automatique d'architectures) automatise la conception même des modèles, en laissant la machine chercher les meilleurs réglages. Enfin, l'apprentissage actif (active learning) laisse le modèle choisir les exemples qu'il veut voir étiquetés, pour apprendre vite avec un minimum d'annotations humaines coûteuses. Autant de variations sur une même question : comment apprendre mieux, avec moins de données et d'efforts ?

Sous le capot

Les grands algorithmes de l'apprentissage par renforcement

L'apprentissage par renforcement (ci-dessus) se décline en plusieurs familles d'algorithmes dont les noms reviennent sans cesse. Le Q-learning apprend, pour chaque situation, la valeur attendue de chaque action possible (le « Q »), puis choisit celle qui promet le plus ; couplé à un réseau de neurones, il a donné le Deep Q-Network qui a appris à jouer aux jeux Atari à partir des seuls pixels. Les méthodes de gradient de politique (dont la plus utilisée, PPO, Proximal Policy Optimization) optimisent directement la stratégie de l'agent, par petits pas prudents pour éviter les écarts brutaux ; c'est précisément l'algorithme au coeur du RLHF des grands modèles (chapitre 3). Enfin, la recherche arborescente Monte-Carlo (MCTS) explore un arbre de coups possibles en simulant de nombreuses parties pour estimer les meilleures branches ; combinée à des réseaux de neurones, elle est la clé du succès d'AlphaGo (chapitre 1). Derrière l'idée générale d'« apprendre par essais et erreurs » se cachent donc des outils mathématiques précis, que l'on retrouve aussi bien dans les jeux que dans la robotique (chapitre 13) et l'alignement des modèles.

2.3Le neurone artificiel et les réseaux

Schéma2.3. Un réseau de neurones « profond ». L'information circule de gauche à droite, de couche en couche. « Profond » (deep) signifie simplement : qui comporte de nombreuses couches cachées. C'est de là que vient le terme deep learning (apprentissage profond).

Sous le capot

Mathématiquement, un neurone calcule une somme pondérée de ses entrées, à laquelle il ajoute un terme de réglage (le « biais »), puis il passe le résultat dans une fonction d'activation non linéaire (par exemple la fonction ReLU, qui remplace tout nombre négatif par zéro). Cette non-linéarité est cruciale : sans elle, empiler des couches ne servirait à rien (la composition de fonctions linéaires reste linéaire). Les poids et les biais sont les paramètres du réseau : ce sont eux que l'apprentissage va ajuster. Quand on dit qu'un modèle a « 70 milliards de paramètres », on parle du nombre de ces réglages internes. Un résultat théorique, le théorème d'approximation universelle, garantit qu'un réseau suffisamment grand peut approximer n'importe quelle fonction continue : c'est la promesse mathématique qui sous-tend toute l'entreprise.

2.4Comment une machine apprend : coût et rétropropagation

À force de répéter, l'erreur diminue, et le réseau devient compétent. L'image la plus parlante est celle d'une randonnée dans le brouillard pour descendre une vallée : on ne voit pas le fond, mais on sent la pente sous ses pieds, et l'on fait un pas vers le bas. En répétant, on finit par atteindre un point bas. Cette « pente », en mathématiques, s'appelle le gradient, et la méthode s'appelle la descente de gradient.

Schéma2.4. La boucle d'apprentissage. Répétée des milliards de fois sur d'immenses jeux de données, elle transforme un réseau aléatoire en un modèle compétent.

Sous le capot

Descendre la pente (gradient et taux d'apprentissage)

Comment l'« ajustement » des poids se fait-il concrètement ? Par la descente de gradient, dont l'image est parlante : imaginez l'erreur du modèle comme un paysage de collines et de vallées, où l'on cherche le point le plus bas (l'erreur minimale). À chaque étape, le gradient indique la direction de la plus forte pente ; on fait alors un petit pas vers le bas, et on recommence. La taille de ce pas est un réglage décisif, le taux d'apprentissage : trop grand, on rebondit d'un versant à l'autre sans jamais se poser ; trop petit, la descente est interminable. En pratique, on ne calcule pas l'erreur sur toutes les données à la fois (trop coûteux), mais sur de petits lots tirés au hasard (mini-batch), d'où le nom de descente de gradient stochastique ; un passage complet sur les données s'appelle une époque. Des optimiseurs perfectionnés (comme Adam) adaptent automatiquement le pas pour chaque paramètre, accélérant et stabilisant la descente. C'est ce processus, répété des milliards de fois, qui sculpte peu à peu un réseau aléatoire en un modèle compétent.

Repère

Le surapprentissage, ou l'art de ne pas réciter par cœur

Un piège guette tout apprentissage automatique : le surapprentissage (overfitting). Un modèle trop ajusté à ses données d'entraînement finit par les « réciter par cœur », bruit et erreurs compris, au lieu d'en dégager des régularités utiles ; il excelle alors sur les exemples vus, mais échoue sur des cas nouveaux. C'est l'inverse du but recherché : la généralisation, soit la capacité à bien se comporter sur des données jamais rencontrées. Pour la mesurer, on réserve systématiquement une partie des données (un jeu de test) que le modèle ne voit pas pendant l'entraînement. À l'opposé, un modèle trop simple sous-apprend : il rate des régularités pourtant présentes. Trouver le bon équilibre est l'art central de la discipline (on parle de compromis biais-variance), et l'on dispose pour cela de techniques de régularisation qui brident la complexité du modèle pour l'empêcher de coller de trop près aux données. Ce souci de généralisation prendra un relief particulier pour les grands modèles, dont on se demande s'ils comprennent ou mémorisent (chapitres 4 et 23).

Repère

L'oubli catastrophique et l'apprentissage continu

Une limite profonde des réseaux de neurones éclaire une bizarrerie des IA actuelles : leur savoir est figé à une date. Quand on entraîne un réseau sur une nouvelle tâche, l'ajustement des poids (ci-dessus) tend à écraser ce qu'il avait appris auparavant : c'est l'oubli catastrophique (catastrophic forgetting). Un humain intègre une information nouvelle sans effacer le reste ; un réseau, lui, risque de tout réapprendre par-dessus. Conséquence pratique : on ne peut pas simplement « ajouter » au fil de l'eau les événements récents à un grand modèle déjà entraîné ; il faudrait le réentraîner, opération coûteuse, d'où la date de coupure des connaissances que l'on observe sur les assistants. Faire qu'une IA apprenne en continu sans tout oublier est précisément l'objet de l'apprentissage continu (continual learning), domaine de recherche actif mais non résolu. En attendant, on contourne l'obstacle autrement : fournir au modèle des informations fraîches au moment de répondre (la génération augmentée par récupération, chapitre 6) plutôt que de les graver dans ses poids.

2.52012 : le big bang du deep learning

Pourquoi 2012 et pas avant ? Parce que les trois carburants manquants (chapitre 1) sont enfin réunis :

Les données : ImageNet fournit le gigantesque jeu d'images étiquetées qui manquait.
Le calcul : AlexNet est entraîné sur des GPU de la société NVIDIA. Ces puces, conçues pour calculer en parallèle les pixels des jeux vidéo, se révèlent idéales pour les multiplications massives des réseaux de neurones. Ce détail technique aura des conséquences géopolitiques colossales : il fera de NVIDIA l'une des entreprises les plus valorisées du monde (chapitre 8).
Les algorithmes : des raffinements (fonction d'activation ReLU, technique de régularisation dropout) permettent d'entraîner des réseaux plus profonds sans qu'ils déraillent.

2.6Voir et lire : CNN et RNN

En clair

Avant le Transformer, deux types d'architectures spécialisées dominent.

Les réseaux de neurones convolutifs (en anglais Convolutional Neural Networks, CNN) sont les champions de l'image. Leur principe imite la vision : des « détecteurs » glissent sur l'image pour repérer d'abord des motifs simples (bords, coins), puis les combinent en motifs de plus en plus complexes (yeux, roues), jusqu'à reconnaître l'objet entier (visage, voiture). C'est la technologie derrière la reconnaissance faciale et l'analyse d'imagerie médicale.
Les réseaux de neurones récurrents (en anglais Recurrent Neural Networks, RNN, et leur perfectionnement, les LSTM) sont conçus pour les séquences : texte, parole, séries temporelles. Ils traitent les mots un par un, en gardant une « mémoire » de ce qui précède.

Repère

Les réseaux de neurones sur graphes (GNN)

À côté des CNN (pour les images) et des RNN (pour les séquences), une troisième famille traite les données en forme de réseau : les réseaux de neurones sur graphes (Graph Neural Networks, GNN). Beaucoup d'objets du monde sont naturellement des graphes, des entités reliées entre elles : une molécule (atomes liés par des liaisons), un réseau social (personnes reliées par des amitiés), un réseau routier, le web lui-même. Un GNN apprend en faisant circuler de l'information entre voisins : chaque noeud met à jour sa représentation en agrégeant celles de ses voisins, de proche en proche. Cela permet de prédire des propriétés (une molécule fera-t-elle un bon médicament ? chapitre 14), de recommander (produits, contacts), ou de détecter des fraudes dans un réseau de transactions. C'est l'architecture de prédilection partout où la structure relationnelle compte autant que les données elles-mêmes, là où un CNN ou un Transformer classique serait mal adapté.

2.7Représenter le sens : les plongements (embeddings)

L'astuce géniale : on apprend ces nombres de telle sorte que les mots de sens proche occupent des positions proches dans l'espace. « Chat » et « chien » se retrouvent voisins ; « roi » et « banane » sont éloignés. Le sens devient géométrie.

Plus fort encore : les directions de l'espace capturent des relations. L'exemple devenu célèbre (issu du modèle word2vec, 2013) est presque magique :

roi − homme + femme ≈ reine

Autrement dit, le vecteur qui relie « homme » à « roi » est à peu près le même que celui qui relie « femme » à « reine ». La machine a découvert, toute seule et sans qu'on le lui dise, le concept abstrait de royauté et celui de genre, simplement en observant comment les mots s'emploient dans des milliards de phrases.

Sous le capot

Le principe sous-jacent est l'hypothèse distributionnelle, résumée par le linguiste J.R. Firth en 1957 : « on reconnaît un mot à la compagnie qu'il fréquente. » En entraînant un modèle à prédire le contexte d'un mot (ou un mot à partir de son contexte), on l'oblige à ranger dans des régions voisines les mots qui apparaissent dans des contextes similaires. Les LLM modernes généralisent massivement cette idée : ils ne plongent plus seulement des mots isolés, mais des fragments de mots en fonction de tout leur contexte, ce qui leur permet de distinguer les multiples sens d'un même mot (« la livre sterling » vs « une livre de beurre »). Les embeddings sont aussi le carburant de technologies omniprésentes en 2026 : moteurs de recherche sémantiques, systèmes de recommandation, et la fameuse génération augmentée par récupération (RAG) qui permet à un LLM de puiser dans une base documentaire (nous y reviendrons aux chapitres 6 et 9).

Schéma2.5. Un fragment de graphe de connaissances. Le savoir y est explicite et vérifiable : chaque fait est une relation nommée entre deux entités, lisible aussi bien par une machine que par un humain.

C'est la forme moderne de la représentation symbolique des connaissances (chapitre 1), et c'est ce qui structure en coulisse de nombreux moteurs de recherche (leurs encarts de réponse). Sa force est la précision et la traçabilité (on sait d'où vient chaque fait) ; sa faiblesse, qu'il faut le construire et le maintenir à la main. D'où l'intérêt croissant pour les approches neuro-symboliques, qui marient la souplesse des réseaux de neurones et la rigueur des graphes : un LLM peut interroger un graphe de connaissances pour ancrer ses réponses dans des faits vérifiés (une variante structurée de la génération augmentée par récupération, chapitre 6), et réduire ainsi ses hallucinations.

2.8Les trois ingrédients de l'IA moderne

Schéma2.6. La triade fondamentale. Aucun des trois ne suffit seul. C'est leur conjonction, à partir des années 2010, qui a rendu l'IA moderne possible, et c'est la course à ces trois ressources qui structure aujourd'hui l'économie et la géopolitique du secteur.

Cette triade éclaire toute la suite du cours :

La quête des données soulève les questions de propriété intellectuelle et de vie privée (chapitres 21 et 25).
La quête du calcul explique la valorisation de NVIDIA, la guerre des puces et la facture énergétique (chapitres 8 et 10).
La quête des algorithmes est l'objet de la compétition acharnée entre laboratoires (chapitre 7), et son prochain grand bond, le Transformer, est le sujet du chapitre suivant.

2.9Le cerveau et la machine : une analogie féconde et trompeuse

Sous le capot

Le contraste est d'abord une affaire d'échelle et de nature. Le cerveau humain compte environ 86 milliards de neurones et de l'ordre de cent mille milliards de connexions (synapses), le tout tenant dans un faible volume et ne consommant qu'environ 20 watts, soit moins qu'une ampoule. Un grand modèle, lui, peut aligner des centaines de milliards de paramètres, mais son entraînement et son fonctionnement réclament des mégawatts (chapitres 8 et 10) : à tâche donnée, le vivant reste d'une efficacité énergétique sans rivale. Surtout, la ressemblance s'arrête à la surface. Plusieurs différences sont profondes :

Le signal. Un neurone biologique communique par impulsions électriques brèves (les « potentiels d'action »), discrètes et asynchrones, modulées par une chimie complexe (des dizaines de neurotransmetteurs). Le neurone artificiel, lui, échange des nombres continus synchronisés, sans aucune chimie. La famille des réseaux à impulsions (calcul neuromorphique, chapitre 8) cherche précisément à se rapprocher du modèle biologique, mais reste marginale.
L'apprentissage. Les réseaux artificiels apprennent par rétropropagation du gradient (section 2.4), un mécanisme global qui suppose de propager une erreur à rebours dans tout le réseau. Or rien de tel n'a été clairement observé dans le cerveau : l'apprentissage biologique semble surtout local (les synapses se renforcent selon l'activité conjointe des neurones qu'elles relient, principe résumé par la formule « ce qui s'active ensemble se lie ensemble »), et fait intervenir le sommeil, l'émotion et la récompense. Comment le cerveau parvient à un apprentissage aussi efficace sans rétropropagation reste une question ouverte.
La plasticité et le temps. Le cerveau est plastique : il se recâble en permanence, oublie, consolide, et apprend souvent d'un seul exemple. Un modèle, une fois entraîné, est largement figé ; il exige d'innombrables exemples et souffre de l'oubli catastrophique (il efface l'ancien quand on lui enseigne du nouveau). Le cerveau est aussi récurrent et incarné (sans cesse en boucle avec un corps et un environnement), là où la plupart des réseaux traitent l'information d'un seul tenant, de l'entrée vers la sortie.

Débat

Faut-il alors copier le cerveau pour atteindre une intelligence générale, ou la machine suivra-t-elle une voie qui lui est propre, comme l'avion vole sans battre des ailes ? Les avis divergent. Les neurosciences continuent d'inspirer la recherche (architectures, apprentissage par récompense, mémoire), et certains y voient la clé d'une IA plus sobre et plus robuste. D'autres soulignent que les grands succès récents (le Transformer, chapitre 3) doivent peu à la biologie. La prudence consiste à retenir l'analogie pour ce qu'elle est : une métaphore d'origine, utile pour saisir l'idée d'apprentissage par l'exemple, mais trompeuse dès qu'on en conclut qu'un modèle « comprend », « ressent » ou « raisonne » comme un humain. Ces questions, précisément, sont au coeur du chapitre 23.

À retenir (chapitre 2)

L'apprentissage automatique renverse la programmation classique : on ne fournit plus les règles, on fournit des exemples, et la machine apprend les règles. Le résultat s'appelle un modèle.
Trois familles : apprentissage supervisé (avec corrigé), non supervisé (sans corrigé), par renforcement (essais-erreurs).
Un réseau de neurones empile des neurones artificiels en couches ; « profond » signifie « à nombreuses couches » (deep learning).
L'apprentissage se fait par descente de gradient et rétropropagation : on mesure l'erreur, puis on corrige chaque poids d'un petit pas pour la réduire.
2012 (AlexNet/ImageNet) marque le big bang du deep learning, rendu possible par la conjonction données + GPU + algorithmes.
Les plongements (embeddings) transforment le sens en géométrie : c'est le pont conceptuel vers les grands modèles de langage.
Toute IA moderne repose sur une triade : données, calcul, algorithmes.

Nous voici prêts à franchir le seuil. Au chapitre 3, nous racontons l'innovation de 2017 qui a fait sauter les verrous du langage et donné naissance à l'ère des grands modèles : le Transformer.

2.1Le changement de paradigme : programmer ou apprendre#

2.2Trois manières d'apprendre#

2.3Le neurone artificiel et les réseaux#

2.4Comment une machine apprend : coût et rétropropagation#

2.52012 : le big bang du deep learning#

2.6Voir et lire : CNN et RNN#

2.7Représenter le sens : les plongements (embeddings)#

2.8Les trois ingrédients de l'IA moderne#

2.9Le cerveau et la machine : une analogie féconde et trompeuse#

À retenir (chapitre 2)

2.1Le changement de paradigme : programmer ou apprendre

2.2Trois manières d'apprendre

2.3Le neurone artificiel et les réseaux

2.4Comment une machine apprend : coût et rétropropagation

2.52012 : le big bang du deep learning

2.6Voir et lire : CNN et RNN

2.7Représenter le sens : les plongements (embeddings)

2.8Les trois ingrédients de l'IA moderne

2.9Le cerveau et la machine : une analogie féconde et trompeuse