Partie I · Fondations : comprendre l'IA avant les LLM

La révolution Transformer : « l'attention est tout ce qu'il faut »

Chapitre 313 min de lecture

3.1Le mur des architectures séquentielles

Pour franchir le mur, il fallait une architecture capable de deux prouesses simultanées : traiter toute la séquence d'un coup (pour aller vite) et relier directement n'importe quel mot à n'importe quel autre, aussi éloignés soient-ils (pour ne rien oublier). C'est exactement ce que le mécanisme d'attention apporte.

3.2L'intuition de l'attention

Une autre image : imaginez une réunion où, pour comprendre une remarque, vous pondérez automatiquement ce que chaque participant a dit auparavant en fonction de sa pertinence. L'attention, c'est ce système de pondération, appliqué à grande échelle et appris automatiquement.

Schéma3.1. Le mécanisme d'attention en image. Pour interpréter le mot « il », le modèle accorde un poids élevé à « animal » et un poids faible à « rue ». Ces poids ne sont pas écrits par un humain : ils sont appris à partir de milliards de phrases.

3.3L'architecture Transformer (2017)

Deux ingrédients méritent d'être retenus :

  • L'attention multi-têtes (multi-head attention). Plutôt qu'un seul système de pondération, le Transformer en fait tourner plusieurs en parallèle, comme autant de « regards » différents posés sur la phrase. Une tête peut suivre la grammaire (accord sujet-verbe), une autre le sens, une autre les références (« il » renvoie à « animal »). En combinant ces regards, le modèle capte des relations très riches.
  • L'encodage positionnel (positional encoding). L'attention, telle quelle, est aveugle à l'ordre des mots : pour elle, « le chien mord l'homme » et « l'homme mord le chien » seraient identiques. On injecte donc, dans la représentation de chaque mot, une information sur sa position dans la phrase, afin que l'ordre soit préservé.
Schéma3.2. Vue très simplifiée d'un Transformer. Un bloc associe une couche d'attention multi-têtes et une couche de calcul ; on empile des dizaines, voire des centaines de ces blocs. C'est la profondeur et la taille de cet empilement qui font la puissance du modèle.

3.4Les lois d'échelle (scaling laws)

Le chercheur Richard Sutton a résumé la leçon philosophique sous le nom de « amère leçon » (bitter lesson) : sur le long terme, les méthodes générales qui tirent parti d'une puissance de calcul croissante finissent toujours par l'emporter sur les méthodes astucieuses péniblement bricolées à la main par des experts. Frustrant pour l'ingéniosité humaine, mais remarquablement efficace.

3.5Pré-entraînement, fine-tuning et RLHF

Schéma3.3. Le pipeline qui fabrique un assistant. C'est essentiellement ce procédé qui a transformé GPT-3 en ChatGPT à la fin 2022.
  1. Le pré-entraînement (pre-training). On fait ingérer au modèle une fraction colossale du texte disponible (pages web, livres, code, articles). Il y apprend la grammaire, les faits, le raisonnement, le style, simplement en cherchant à prédire la suite. C'est l'étape la plus coûteuse : des semaines de calcul sur des milliers de processeurs, pour des dizaines, voire des centaines de millions de dollars.
  2. L'ajustement supervisé (supervised fine-tuning, SFT), aussi appelé ajustement par instructions. On montre au modèle des milliers d'exemples de la forme « question d'un utilisateur, réponse idéale d'un assistant ». Il apprend ainsi à se comporter en assistant : répondre, suivre des consignes, adopter le bon registre.
  3. Le RLHF (Reinforcement Learning from Human Feedback, apprentissage par renforcement à partir de retours humains). Des humains comparent plusieurs réponses du modèle et indiquent lesquelles ils préfèrent. Un second modèle, dit « modèle de récompense », apprend ces préférences, puis sert à entraîner le modèle principal à produire des réponses jugées meilleures : plus utiles, plus honnêtes, moins toxiques. C'est l'étape qui rend l'assistant agréable et relativement sûr.

À retenir (chapitre 3)

  • Le Transformer (2017, article « Attention Is All You Need ») remplace la lecture séquentielle par le mécanisme d'attention, qui relie directement tous les mots entre eux et se parallélise sur GPU.
  • L'attention apprend, pour chaque mot, quels autres mots comptent et combien. L'attention multi-têtes multiplie ces « regards » ; l'encodage positionnel préserve l'ordre des mots.
  • La lignée décodeur seul (famille GPT) s'est imposée pour la génération de texte.
  • Les lois d'échelle montrent que la performance croît de façon prévisible avec la taille, les données et le calcul, d'où la course aux ressources. Mais leurs rendements pourraient plafonner.
  • Un assistant se fabrique en trois temps : pré-entraînement, ajustement supervisé, puis RLHF. Cette dernière étape est aussi le berceau du problème d'alignement.

Au chapitre suivant, nous ouvrons en grand le capot de l'objet vedette de cette nouvelle ère : le grand modèle de langage lui-même.