La révolution Transformer : « l'attention est tout ce qu'il faut »

3.1Le mur des architectures séquentielles

Pour franchir le mur, il fallait une architecture capable de deux prouesses simultanées : traiter toute la séquence d'un coup (pour aller vite) et relier directement n'importe quel mot à n'importe quel autre, aussi éloignés soient-ils (pour ne rien oublier). C'est exactement ce que le mécanisme d'attention apporte.

3.2L'intuition de l'attention

Une autre image : imaginez une réunion où, pour comprendre une remarque, vous pondérez automatiquement ce que chaque participant a dit auparavant en fonction de sa pertinence. L'attention, c'est ce système de pondération, appliqué à grande échelle et appris automatiquement.

Schéma3.1. Le mécanisme d'attention en image. Pour interpréter le mot « il », le modèle accorde un poids élevé à « animal » et un poids faible à « rue ». Ces poids ne sont pas écrits par un humain : ils sont appris à partir de milliards de phrases.

Sous le capot

Techniquement, chaque mot (plus précisément chaque token, voir chapitre 4) émet trois vecteurs : une requête (query : « ce que je cherche »), une clé (key : « ce que je propose ») et une valeur (value : « l'information que je porte »). Le poids d'attention entre deux mots se calcule en comparant la requête de l'un aux clés de tous les autres (un produit scalaire, normalisé par une fonction softmax pour obtenir des pourcentages qui somment à 100 %). La sortie pour chaque mot est alors une somme pondérée des valeurs de tous les mots. Comme cette opération se ramène à de grandes multiplications de matrices, elle se parallélise massivement sur GPU, ce qui fait sauter le verrou de la lenteur ; et comme chaque mot peut « regarder » directement tous les autres, le verrou de l'amnésie disparaît aussi. On parle d'auto-attention (self-attention) lorsque les mots d'une même séquence s'observent ainsi mutuellement.

3.3L'architecture Transformer (2017)

Deux ingrédients méritent d'être retenus :

L'attention multi-têtes (multi-head attention). Plutôt qu'un seul système de pondération, le Transformer en fait tourner plusieurs en parallèle, comme autant de « regards » différents posés sur la phrase. Une tête peut suivre la grammaire (accord sujet-verbe), une autre le sens, une autre les références (« il » renvoie à « animal »). En combinant ces regards, le modèle capte des relations très riches.
L'encodage positionnel (positional encoding). L'attention, telle quelle, est aveugle à l'ordre des mots : pour elle, « le chien mord l'homme » et « l'homme mord le chien » seraient identiques. On injecte donc, dans la représentation de chaque mot, une information sur sa position dans la phrase, afin que l'ordre soit préservé.

Schéma3.2. Vue très simplifiée d'un Transformer. Un bloc associe une couche d'attention multi-têtes et une couche de calcul ; on empile des dizaines, voire des centaines de ces blocs. C'est la profondeur et la taille de cet empilement qui font la puissance du modèle.

Sous le capot

L'architecture originale comportait deux moitiés : un encodeur (qui « comprend » une entrée) et un décodeur (qui « génère » une sortie), conçus au départ pour la traduction automatique. Très vite, deux lignées ont divergé. Les modèles encodeur seul, comme BERT (Google, 2018), excellent dans les tâches de compréhension (classification, recherche). Les modèles décodeur seul, comme la famille GPT (Generative Pre-trained Transformer), sont optimisés pour la génération : ils prédisent le token suivant, encore et encore, ce qui produit du texte. C'est cette seconde lignée, le décodeur seul, qui s'est imposée pour les grands modèles génératifs que nous utilisons aujourd'hui. Notez que la même architecture, nourrie d'images, de son ou de code plutôt que de texte, donne les modèles multimodaux du chapitre 5 : le Transformer est devenu une brique quasi universelle.

Sous le capot

Ce qui rend les empilements profonds entraînables (résidus et normalisation)

Empiler des dizaines, voire des centaines de blocs Transformer pose un problème pratique : plus un réseau est profond, plus le signal d'apprentissage tend à se dégrader en remontant les couches (des gradients qui s'évanouissent ou explosent). Deux astuces, discrètes mais décisives, le résolvent. Les connexions résiduelles (residual connections) ajoutent à la sortie de chaque couche son entrée elle-même, créant un « raccourci » : l'information et le gradient traversent ainsi tout le réseau sans s'éteindre, et chaque couche n'a plus qu'à apprendre une petite correction plutôt que de tout refaire. La normalisation de couche (layer normalization) recadre, à chaque étape, l'échelle des valeurs qui circulent, ce qui stabilise et accélère l'entraînement. Ces deux mécanismes n'ont rien de spectaculaire, mais sans eux les très grands modèles d'aujourd'hui seraient tout bonnement impossibles à entraîner. C'est un bon exemple d'une vérité récurrente du domaine : une grande partie du progrès tient à des détails d'ingénierie peu visibles, autant qu'aux idées de principe.

Repère

La tokenisation, ou comment le modèle découpe le texte

Avant tout calcul, un modèle de langage doit transformer le texte en nombres. Il ne lit ni des lettres ni des mots entiers, mais des jetons (tokens) : des fragments de mots, obtenus par un découpage statistique (un algorithme comme le Byte Pair Encoding fusionne les paires de caractères les plus fréquentes). Un mot courant tient souvent en un seul jeton, un mot rare ou complexe se découpe en plusieurs. Chaque jeton est ensuite converti en un vecteur (un plongement, section 2.7) que le réseau peut manipuler. Ce détail technique a des conséquences très concrètes. Il explique pourquoi les modèles comptent mal les lettres (combien de « r » dans « strawberry » ?) ou trébuchent sur l'arithmétique : ils ne voient pas les caractères ni les chiffres un à un, mais des blocs. Il explique aussi pourquoi le coût et la longueur de contexte se mesurent en jetons, et pourquoi certaines langues, mal représentées dans les données, se découpent en bien plus de jetons que l'anglais, donc coûtent plus cher à traiter (un angle d'inégalité abordé au chapitre 21).

Repère

Le coût caché de l'attention (la complexité quadratique)

Le mécanisme d'attention a une rançon : pour une séquence de n mots, chaque mot doit se comparer à tous les autres, soit de l'ordre de n fois n comparaisons. On parle de complexité quadratique : doubler la longueur du texte ne double pas le coût, il le quadruple. C'est la raison technique pour laquelle traiter de très longs documents (une fenêtre de contexte étendue, chapitre 4) coûte cher en calcul et en mémoire, et pourquoi le contexte n'est pas infini. Tout un pan de la recherche vise donc à assouplir ce verrou : des variantes d'attention plus économes (attention dite éparse, ou approchée), des implémentations qui optimisent l'usage de la mémoire (comme FlashAttention), ou des architectures alternatives cherchant à retrouver l'efficacité linéaire des anciens modèles séquentiels sans en payer le prix en performance. Allonger le contexte tout en maîtrisant ce coût quadratique est l'un des chantiers d'ingénierie permanents derrière les progrès des grands modèles.

Repère

Les alternatives au Transformer (Mamba et modèles à espace d'états)

Le Transformer règne, mais son coût quadratique en attention (vu ci-dessus) a relancé la quête d'architectures plus économes pour les très longues séquences. La piste la plus en vue est celle des modèles à espace d'états (State Space Models, SSM), dont Mamba (2023) est le représentant le plus connu. L'idée s'inspire des anciens réseaux récurrents : traiter la séquence en maintenant un état compact qui résume le passé, ce qui donne un coût linéaire (et non plus quadratique) avec la longueur, et une inférence très rapide. Là où un Transformer doit, pour chaque mot, regarder tous les autres, un SSM met à jour son état au fil de l'eau. La difficulté est de retrouver, par des astuces mathématiques, la capacité du Transformer à sélectionner l'information pertinente sur de longues distances, ce que les anciens RNN ne savaient pas faire. En 2026, ces modèles (souvent hybridés avec quelques couches d'attention) restent minoritaires face aux Transformers, mais prometteurs là où le contexte très long et l'efficacité priment. Ils rappellent une leçon : aucune architecture n'est définitive, et celle qui domine aujourd'hui pourrait être complétée, voire dépassée, demain.

3.4Les lois d'échelle (scaling laws)

Le chercheur Richard Sutton a résumé la leçon philosophique sous le nom de « amère leçon » (bitter lesson) : sur le long terme, les méthodes générales qui tirent parti d'une puissance de calcul croissante finissent toujours par l'emporter sur les méthodes astucieuses péniblement bricolées à la main par des experts. Frustrant pour l'ingéniosité humaine, mais remarquablement efficace.

3.5Pré-entraînement, fine-tuning et RLHF

Schéma3.3. Le pipeline qui fabrique un assistant. C'est essentiellement ce procédé qui a transformé GPT-3 en ChatGPT à la fin 2022.

Le pré-entraînement (pre-training). On fait ingérer au modèle une fraction colossale du texte disponible (pages web, livres, code, articles). Il y apprend la grammaire, les faits, le raisonnement, le style, simplement en cherchant à prédire la suite. C'est l'étape la plus coûteuse : des semaines de calcul sur des milliers de processeurs, pour des dizaines, voire des centaines de millions de dollars.
L'ajustement supervisé (supervised fine-tuning, SFT), aussi appelé ajustement par instructions. On montre au modèle des milliers d'exemples de la forme « question d'un utilisateur, réponse idéale d'un assistant ». Il apprend ainsi à se comporter en assistant : répondre, suivre des consignes, adopter le bon registre.
Le RLHF (Reinforcement Learning from Human Feedback, apprentissage par renforcement à partir de retours humains). Des humains comparent plusieurs réponses du modèle et indiquent lesquelles ils préfèrent. Un second modèle, dit « modèle de récompense », apprend ces préférences, puis sert à entraîner le modèle principal à produire des réponses jugées meilleures : plus utiles, plus honnêtes, moins toxiques. C'est l'étape qui rend l'assistant agréable et relativement sûr.

À retenir (chapitre 3)

Le Transformer (2017, article « Attention Is All You Need ») remplace la lecture séquentielle par le mécanisme d'attention, qui relie directement tous les mots entre eux et se parallélise sur GPU.
L'attention apprend, pour chaque mot, quels autres mots comptent et combien. L'attention multi-têtes multiplie ces « regards » ; l'encodage positionnel préserve l'ordre des mots.
La lignée décodeur seul (famille GPT) s'est imposée pour la génération de texte.
Les lois d'échelle montrent que la performance croît de façon prévisible avec la taille, les données et le calcul, d'où la course aux ressources. Mais leurs rendements pourraient plafonner.
Un assistant se fabrique en trois temps : pré-entraînement, ajustement supervisé, puis RLHF. Cette dernière étape est aussi le berceau du problème d'alignement.

Au chapitre suivant, nous ouvrons en grand le capot de l'objet vedette de cette nouvelle ère : le grand modèle de langage lui-même.

3.1Le mur des architectures séquentielles#

3.2L'intuition de l'attention#

3.3L'architecture Transformer (2017)#

3.4Les lois d'échelle (scaling laws)#

3.5Pré-entraînement, fine-tuning et RLHF#

À retenir (chapitre 3)

3.1Le mur des architectures séquentielles

3.2L'intuition de l'attention

3.3L'architecture Transformer (2017)

3.4Les lois d'échelle (scaling laws)

3.5Pré-entraînement, fine-tuning et RLHF