Les grands modèles de langage (LLM)

4.1Qu'est-ce qu'un LLM, au fond ?

Une manière saisissante de le formuler : un LLM est une fonction qui, ayant lu une quantité de texte qu'aucun humain ne pourrait lire en mille vies, a compressé dans ses paramètres une part immense des régularités du langage et, à travers lui, du monde.

Débat

Comprennent-ils vraiment ?

C'est la controverse intellectuelle du domaine. D'un côté, des chercheuses comme Emily Bender ont qualifié ces modèles de « perroquets stochastiques » (2021) : ils recracheraient des combinaisons statistiquement plausibles de mots, sans aucune compréhension. De l'autre, des chercheurs observent que, pour prédire si bien le mot suivant sur des sujets aussi variés, un modèle doit avoir construit des représentations internes structurées qui ressemblent fort à des concepts, voire à un embryon de « modèle du monde » (chapitre 5). La position honnête, en 2026, est intermédiaire : ces systèmes manipulent des régularités à une échelle telle que leur comportement est souvent indiscernable d'une compréhension, sans que l'on puisse trancher avec certitude la question philosophique de savoir s'ils « comprennent ». Ce qui est sûr, c'est que la métaphore du simple perroquet ne suffit plus à rendre compte de leurs capacités de raisonnement.

Sous le capot

Comment le modèle choisit le mot suivant (le décodage)

À chaque étape, un LLM ne produit pas un mot, mais une probabilité pour chacun des mots (jetons) possibles : par exemple, après « le ciel est », il attribue une forte probabilité à « bleu », une plus faible à « gris », une infime à « tarte ». Reste à en choisir un : c'est l'étape du décodage. La méthode la plus simple, dite gloutonne, prend toujours le plus probable, mais elle produit un texte plat et répétitif. En pratique, on échantillonne : on tire un mot au sort en respectant les probabilités, ce qui introduit de la variété. Un réglage, la température, ajuste ce tirage : proche de zéro, le modèle devient quasi déterministe et prudent (utile pour du code ou des faits) ; plus élevée, il ose des choix moins probables et se montre plus créatif (utile pour écrire une histoire), au risque de dérailler. C'est pourquoi un même modèle, sur une même question, peut donner des réponses différentes d'une fois sur l'autre : non par fantaisie, mais parce que le hasard du tirage est, par conception, au cœur de la génération.

4.2Les jetons (tokens) : la « monnaie » de l'IA

Pourquoi est-ce capital ? Pour deux raisons très concrètes :

La fenêtre de contexte (context window) est le nombre maximal de tokens que le modèle peut « garder en tête » simultanément. Les tailles varient fortement selon les modèles : beaucoup se situent en 2026 entre 128 000 et 256 000 tokens (l'équivalent d'un gros livre), et de nombreux modèles de frontière atteignent désormais le million de tokens, voire davantage. Au-delà de sa fenêtre, le modèle ne « voit » plus le début de la conversation ou du document ; en pratique, sa capacité à exploiter un contexte très long se dégrade souvent bien avant cette limite.
Le prix se compte en tokens. L'usage d'un modèle par interface de programmation (API) est facturé par million de tokens consommés, en entrée (ce qu'on lui envoie) et en sortie (ce qu'il génère). Le fabricant de puces NVIDIA va jusqu'à décrire les tokens comme « le langage et la monnaie de l'IA » : optimiser le coût par token est devenu un enjeu industriel majeur (chapitres 8 et 9).

4.3Anatomie d'un entraînement

En clair

Reprenons le pipeline du chapitre 3 en précisant ce qui est propre aux LLM.

Les données. On rassemble un corpus gigantesque : une grande partie du web public, des livres numérisés, d'énormes volumes de code informatique, des articles. Cette matière première est ensuite nettoyée (suppression des doublons, des contenus de très basse qualité, filtrage). La qualité des données est aujourd'hui considérée comme aussi déterminante que leur quantité, ce qui soulève des questions juridiques (droit d'auteur) et éthiques abordées aux chapitres 21 et 25.
Le pré-entraînement. Le calcul s'effectue sur des grappes de milliers de processeurs spécialisés (chapitre 8) pendant des semaines ou des mois. Conformément aux enseignements de « Chinchilla » (chapitre 3), on cherche le bon équilibre entre le nombre de paramètres et le volume de données.
Le post-entraînement (ajustement supervisé puis RLHF) transforme le modèle brut en assistant.

Sous le capot

Les modèles à experts (MoE)

Une innovation d'architecture explique en partie comment les modèles de 2024-2026 sont devenus à la fois plus puissants et plus économes : le mélange d'experts (en anglais Mixture of Experts, MoE). Au lieu d'un seul réseau dense où tous les paramètres s'activent à chaque mot, le modèle est découpé en de nombreux sous-réseaux spécialisés, les « experts », et un petit aiguilleur (router) ne sollicite, pour chaque jeton, que les deux ou trois experts les plus pertinents. Résultat : un modèle peut compter des centaines de milliards, voire des milliers de milliards de paramètres « en réserve », tout en n'en activant qu'une fraction à chaque calcul, donc à un coût bien moindre qu'un modèle dense équivalent. C'est l'un des ressorts du choc DeepSeek (chapitre 9) et de la plupart des grands modèles récents. Le revers : ces modèles sont plus complexes à entraîner et à servir (il faut équilibrer la charge entre experts), mais le gain d'efficacité l'emporte largement.

Repère

Le mur des données

Toute cette mécanique repose sur une matière première finie : le texte écrit par des humains. Or les plus grands modèles en ont déjà ingéré l'essentiel de ce qui est accessible publiquement, d'où la crainte d'un « mur des données ». Une étude de référence (l'institut Epoch AI, 2024) estime, avec une marge d'incertitude, que le stock de texte humain public de qualité pourrait être épuisé entre 2026 et 2032, voire plus tôt si l'on « surentraîne » les modèles (les nourrir plusieurs fois des mêmes sources pour gagner en efficacité). Fin 2024 et début 2025, plusieurs voix du secteur ont popularisé l'image des données comme « pétrole » de l'IA, une ressource qui s'épuise. Trois réponses se dessinent. D'abord acheter de la donnée, d'où la vague de contrats de licence entre laboratoires et détenteurs de contenus (presse, forums, archives, chapitres 16 et 21). Ensuite changer de matière, en exploitant l'image, la vidéo et le son (le multimodal, chapitre 5), bien plus abondants que le texte. Enfin et surtout fabriquer de la donnée synthétique, produite par les modèles eux-mêmes, en particulier pour entraîner le raisonnement (section suivante). Mais cette dernière piste a un revers connu : trop entraîner un modèle sur sa propre production dégrade sa qualité, c'est l'effondrement du modèle (chapitre 16). Reste l'inconnue de fond : ce mur freinera-t-il vraiment les progrès, ou les gains d'efficacité (mieux apprendre avec moins) le repousseront-ils ?

4.4Capacités émergentes et hallucinations

Mais ces modèles souffrent d'un défaut notoire : les hallucinations. Le modèle affirme, avec le même aplomb tranquille que pour une vérité, des informations fausses : une citation inventée, une référence juridique inexistante, un fait erroné. La raison est structurelle : un LLM est optimisé pour produire du texte plausible, pas du texte vrai. Il n'a pas, par construction, de notion interne de « je ne sais pas » ; face à une lacune, il comble par ce qui ressemble le plus à une réponse vraisemblable.

Les conséquences peuvent être graves (erreurs médicales, fausses jurisprudences citées au tribunal). Plusieurs parades existent et progressent :

La génération augmentée par récupération (RAG, voir chapitre 2) : on fournit au modèle des documents fiables récupérés à la volée, sur lesquels il doit s'appuyer.
L'usage d'outils : déléguer le calcul à une calculatrice, les faits récents à un moteur de recherche (chapitre 6).
Les citations vérifiables et l'amélioration continue de l'entraînement.
Le raisonnement explicite (section suivante), qui réduit certaines erreurs.

Repère

L'art de l'invite (prompt et context engineering)

La qualité d'une réponse dépend énormément de la façon dont on la sollicite. L'ingénierie de l'invite (prompt engineering) est l'art de formuler ses demandes pour tirer le meilleur d'un modèle : donner du contexte, fournir des exemples (le modèle apprend « à la volée » à partir de quelques cas, ce qu'on appelle l'apprentissage en contexte), préciser le format attendu, ou demander au modèle de « réfléchir étape par étape » (ce qui rejoint la chaîne de pensée de la section suivante). Avec la montée des agents (chapitre 6), la discipline s'est élargie en ingénierie du contexte (context engineering) : il ne s'agit plus seulement de la question posée, mais de tout ce que l'on place dans la fenêtre de contexte du modèle au bon moment (instructions, mémoire, documents récupérés par RAG, résultats d'outils). Bien doser ce contexte, ni trop peu ni trop, est devenu une compétence clé pour fiabiliser modèles et agents.

4.5Le raisonnement : chaîne de pensée et modèles « thinking »

Les laboratoires ont alors entraîné des modèles de raisonnement (ou modèles « thinking ») : des modèles qui produisent une longue réflexion interne avant de livrer leur réponse, en consacrant davantage de calcul au moment de répondre (on parle de test-time compute, le calcul à l'inférence). Plutôt que de répondre du tac au tac, le modèle « prend le temps de penser », explore des pistes, se corrige.

Schéma4.1. Réponse directe contre raisonnement explicite. Le modèle de raisonnement est plus lent et plus coûteux, mais nettement plus fiable sur les problèmes complexes.

Ce changement a déplacé la frontière de la performance : on ne gagne plus seulement en agrandissant le pré-entraînement, mais aussi en laissant le modèle penser plus longtemps. Les premiers modèles de cette génération ont été la lignée o1 puis o3 d'OpenAI (fin 2024 et 2025) et le modèle ouvert DeepSeek-R1 (début 2025), qui a marqué les esprits en atteignant un excellent niveau de raisonnement à coût très réduit. En 2026, les grandes familles (Claude, Gemini, GPT, Grok) proposent toutes un mode de raisonnement.

4.6Évaluer un modèle : les benchmarks

En clair

Comment savoir si un modèle est « meilleur » qu'un autre ? On utilise des bancs d'essai (benchmarks) : des examens standardisés. Les plus cités en 2026 :

MMLU : un vaste questionnaire de culture générale et académique.
GPQA : des questions de niveau doctorat en sciences, conçues pour résister à la simple recherche.
SWE-bench : la résolution de vrais problèmes d'ingénierie logicielle tirés de dépôts de code, devenu la référence pour mesurer l'utilité réelle en programmation.
Humanity's Last Exam : un examen volontairement extrême, à la limite des connaissances humaines.
FrontierMath : des problèmes de mathématiques de niveau recherche, validés par des experts, sur lesquels même les meilleurs modèles butaient encore largement à la mi-2026.
ARC-AGI : un test de raisonnement abstrait, pensé pour mesurer la capacité à généraliser plutôt qu'à mémoriser.
Les arènes de préférence humaine (comme LMArena, anciennement Chatbot Arena), où des humains votent à l'aveugle pour la meilleure réponse entre deux modèles. C'est l'un des indicateurs les plus difficiles à manipuler, car il mesure la satisfaction réelle des utilisateurs.
Les agrégateurs indépendants (comme Artificial Analysis), qui compilent les performances sur de nombreux tests et y ajoutent des mesures de vitesse et de coût, utiles pour comparer les modèles sous un angle pratique.

Repère

La perplexité, la « surprise » du modèle

Avant même les grands tableaux de bord (ci-dessous), la mesure historique de la qualité d'un modèle de langage est la perplexité. L'idée : on présente au modèle un texte qu'il n'a jamais vu et on regarde à quel point il est « surpris » par chaque mot, c'est-à-dire quelle probabilité il lui accordait. Plus la perplexité est basse, mieux le modèle a anticipé le texte, donc mieux il en a capté les régularités. C'est une mesure directe de l'objectif d'entraînement (prédire le mot suivant, chapitre 3), précieuse pour suivre les progrès pendant l'entraînement et comparer des modèles sur un même corpus. Sa limite : elle évalue la prédiction, non l'utilité. Un modèle peut afficher une excellente perplexité sans être pour autant bon en raisonnement, en suivi d'instructions ou en sûreté, d'où le recours, en complément, aux épreuves par tâches décrites ci-dessous.

État des lieux à la mi-2026. Le sommet de l'art est âprement disputé, et le classement change presque chaque mois ; ce qui suit est un instantané. Côté américain, la famille Claude d'Anthropic, la lignée GPT-5 d'OpenAI, Gemini 3 de Google DeepMind et Grok de xAI se livrent une compétition serrée. Côté chinois, des modèles souvent en poids ouverts et à très bas coût, comme DeepSeek et Qwen (Alibaba), atteignent un niveau proche de la frontière. Côté européen, le français Mistral porte la bannière de la souveraineté. Quelques tendances nettes se dégagent en 2026 : sur les arènes de préférence humaine, les déclinaisons de Claude ont occupé les premières places une bonne partie de l'année ; sur le code (SWE-bench), la tête se dispute entre Claude, Grok et GPT ; Gemini brille sur plusieurs épreuves de raisonnement et sur le multimodal ; et les modèles à poids ouverts offrent désormais une qualité quasi équivalente pour une fraction du prix, ce qui bouscule toute l'économie du secteur.

Repère

Les principaux produits (instantané de la mi-2026)

Quelques repères concrets, en gardant à l'esprit que les versions changent presque chaque mois. Anthropic décline Claude en paliers : Opus (le plus puissant), Sonnet (équilibré) et Haiku (rapide et économique), autour de la génération 4.x ; s'y ajoute une famille « de frontière » encore plus capable et entourée de garde-fous renforcés (gamme Mythos / Fable), dont l'accès le plus avancé a été temporairement restreint pour des raisons de contrôle des exportations (chapitres 20 et 25). OpenAI fait évoluer GPT-5 par incréments rapprochés (jusqu'aux versions GPT-5.5 à la mi-2026), avec des déclinaisons Codex spécialisées dans le code (chapitre 6). Google propose Gemini 3 en versions Pro (raisonnement avancé) et Flash (rapide et économique), déclinées jusqu'à la génération 3.5. xAI développe Grok, intégré au réseau social X. Côté chinois, DeepSeek et Qwen (Alibaba), souvent en poids ouverts, restent proches de la frontière, aux côtés de Kimi (Moonshot) ou MiniMax. En Europe, Mistral décline des modèles ouverts et propriétaires.

La grande leçon de 2026, sur laquelle nous reviendrons au chapitre 7, tient en une phrase : il n'existe plus un « meilleur modèle » dans l'absolu, mais un meilleur modèle pour chaque tâche. Les organisations les plus avancées pratiquent le « routage » (routing) : confier chaque requête au modèle le mieux adapté en termes de qualité, de vitesse et de coût. Et tout classement doit se lire comme une photographie, valable à un instant donné.

À retenir (chapitre 4)

Un LLM est un Transformer entraîné à grande échelle à prédire le token suivant ; de cet objectif émergent conversation, traduction, code et raisonnement.
Les modèles raisonnent en tokens (fragments de mots), ce qui définit la fenêtre de contexte et le prix (facturé par million de tokens).
L'entraînement (investissement unique et massif) se distingue de l'inférence (coût récurrent à chaque requête) ; la distillation produit des versions légères et bon marché.
La matière première, le texte humain de qualité, pourrait s'épuiser vers 2026-2032 (le « mur des données »), d'où le recours aux licences, au multimodal et aux données synthétiques.
Les hallucinations sont structurelles (le modèle vise le plausible, pas le vrai) ; on les atténue par le RAG, l'usage d'outils et le raisonnement, sans les éliminer.
Les modèles de raisonnement « pensent » plus longtemps au moment de répondre, déplaçant la frontière de performance vers le calcul à l'inférence.
Les benchmarks mesurent les progrès mais souffrent de saturation, de contamination et de l'effet Goodhart. À la mi-2026, la frontière est disputée entre acteurs américains, chinois et européens, sans vainqueur unique.

Nous avons désormais une vision complète du « comment ça marche ». La partie II se poursuit en élargissant le regard : au-delà du texte, les modèles du monde et le multimodal (chapitre 5), puis le passage à l'action avec les agents (chapitre 6), avant de dresser la carte des acteurs (chapitre 7).

4.1Qu'est-ce qu'un LLM, au fond ?#

4.2Les jetons (tokens) : la « monnaie » de l'IA#

4.3Anatomie d'un entraînement#

4.4Capacités émergentes et hallucinations#

4.5Le raisonnement : chaîne de pensée et modèles « thinking »#

4.6Évaluer un modèle : les benchmarks#

À retenir (chapitre 4)

4.1Qu'est-ce qu'un LLM, au fond ?

4.2Les jetons (tokens) : la « monnaie » de l'IA

4.3Anatomie d'un entraînement

4.4Capacités émergentes et hallucinations

4.5Le raisonnement : chaîne de pensée et modèles « thinking »

4.6Évaluer un modèle : les benchmarks