Partie II · L'ère des grands modèles

Les grands modèles de langage (LLM)

Chapitre 417 min de lectureMis à jour : juin 2026

4.1Qu'est-ce qu'un LLM, au fond ?

Une manière saisissante de le formuler : un LLM est une fonction qui, ayant lu une quantité de texte qu'aucun humain ne pourrait lire en mille vies, a compressé dans ses paramètres une part immense des régularités du langage et, à travers lui, du monde.

4.2Les jetons (tokens) : la « monnaie » de l'IA

Pourquoi est-ce capital ? Pour deux raisons très concrètes :

  • La fenêtre de contexte (context window) est le nombre maximal de tokens que le modèle peut « garder en tête » simultanément. Les tailles varient fortement selon les modèles : beaucoup se situent en 2026 entre 128 000 et 256 000 tokens (l'équivalent d'un gros livre), et de nombreux modèles de frontière atteignent désormais le million de tokens, voire davantage. Au-delà de sa fenêtre, le modèle ne « voit » plus le début de la conversation ou du document ; en pratique, sa capacité à exploiter un contexte très long se dégrade souvent bien avant cette limite.
  • Le prix se compte en tokens. L'usage d'un modèle par interface de programmation (API) est facturé par million de tokens consommés, en entrée (ce qu'on lui envoie) et en sortie (ce qu'il génère). Le fabricant de puces NVIDIA va jusqu'à décrire les tokens comme « le langage et la monnaie de l'IA » : optimiser le coût par token est devenu un enjeu industriel majeur (chapitres 8 et 9).

4.3Anatomie d'un entraînement

4.4Capacités émergentes et hallucinations

Mais ces modèles souffrent d'un défaut notoire : les hallucinations. Le modèle affirme, avec le même aplomb tranquille que pour une vérité, des informations fausses : une citation inventée, une référence juridique inexistante, un fait erroné. La raison est structurelle : un LLM est optimisé pour produire du texte plausible, pas du texte vrai. Il n'a pas, par construction, de notion interne de « je ne sais pas » ; face à une lacune, il comble par ce qui ressemble le plus à une réponse vraisemblable.

Les conséquences peuvent être graves (erreurs médicales, fausses jurisprudences citées au tribunal). Plusieurs parades existent et progressent :

  • La génération augmentée par récupération (RAG, voir chapitre 2) : on fournit au modèle des documents fiables récupérés à la volée, sur lesquels il doit s'appuyer.
  • L'usage d'outils : déléguer le calcul à une calculatrice, les faits récents à un moteur de recherche (chapitre 6).
  • Les citations vérifiables et l'amélioration continue de l'entraînement.
  • Le raisonnement explicite (section suivante), qui réduit certaines erreurs.

4.5Le raisonnement : chaîne de pensée et modèles « thinking »

Les laboratoires ont alors entraîné des modèles de raisonnement (ou modèles « thinking ») : des modèles qui produisent une longue réflexion interne avant de livrer leur réponse, en consacrant davantage de calcul au moment de répondre (on parle de test-time compute, le calcul à l'inférence). Plutôt que de répondre du tac au tac, le modèle « prend le temps de penser », explore des pistes, se corrige.

Schéma4.1. Réponse directe contre raisonnement explicite. Le modèle de raisonnement est plus lent et plus coûteux, mais nettement plus fiable sur les problèmes complexes.

Ce changement a déplacé la frontière de la performance : on ne gagne plus seulement en agrandissant le pré-entraînement, mais aussi en laissant le modèle penser plus longtemps. Les premiers modèles de cette génération ont été la lignée o1 puis o3 d'OpenAI (fin 2024 et 2025) et le modèle ouvert DeepSeek-R1 (début 2025), qui a marqué les esprits en atteignant un excellent niveau de raisonnement à coût très réduit. En 2026, les grandes familles (Claude, Gemini, GPT, Grok) proposent toutes un mode de raisonnement.

4.6Évaluer un modèle : les benchmarks

État des lieux à la mi-2026. Le sommet de l'art est âprement disputé, et le classement change presque chaque mois ; ce qui suit est un instantané. Côté américain, la famille Claude d'Anthropic, la lignée GPT-5 d'OpenAI, Gemini 3 de Google DeepMind et Grok de xAI se livrent une compétition serrée. Côté chinois, des modèles souvent en poids ouverts et à très bas coût, comme DeepSeek et Qwen (Alibaba), atteignent un niveau proche de la frontière. Côté européen, le français Mistral porte la bannière de la souveraineté. Quelques tendances nettes se dégagent en 2026 : sur les arènes de préférence humaine, les déclinaisons de Claude ont occupé les premières places une bonne partie de l'année ; sur le code (SWE-bench), la tête se dispute entre Claude, Grok et GPT ; Gemini brille sur plusieurs épreuves de raisonnement et sur le multimodal ; et les modèles à poids ouverts offrent désormais une qualité quasi équivalente pour une fraction du prix, ce qui bouscule toute l'économie du secteur.

La grande leçon de 2026, sur laquelle nous reviendrons au chapitre 7, tient en une phrase : il n'existe plus un « meilleur modèle » dans l'absolu, mais un meilleur modèle pour chaque tâche. Les organisations les plus avancées pratiquent le « routage » (routing) : confier chaque requête au modèle le mieux adapté en termes de qualité, de vitesse et de coût. Et tout classement doit se lire comme une photographie, valable à un instant donné.


À retenir (chapitre 4)

  • Un LLM est un Transformer entraîné à grande échelle à prédire le token suivant ; de cet objectif émergent conversation, traduction, code et raisonnement.
  • Les modèles raisonnent en tokens (fragments de mots), ce qui définit la fenêtre de contexte et le prix (facturé par million de tokens).
  • L'entraînement (investissement unique et massif) se distingue de l'inférence (coût récurrent à chaque requête) ; la distillation produit des versions légères et bon marché.
  • La matière première, le texte humain de qualité, pourrait s'épuiser vers 2026-2032 (le « mur des données »), d'où le recours aux licences, au multimodal et aux données synthétiques.
  • Les hallucinations sont structurelles (le modèle vise le plausible, pas le vrai) ; on les atténue par le RAG, l'usage d'outils et le raisonnement, sans les éliminer.
  • Les modèles de raisonnement « pensent » plus longtemps au moment de répondre, déplaçant la frontière de performance vers le calcul à l'inférence.
  • Les benchmarks mesurent les progrès mais souffrent de saturation, de contamination et de l'effet Goodhart. À la mi-2026, la frontière est disputée entre acteurs américains, chinois et européens, sans vainqueur unique.

Nous avons désormais une vision complète du « comment ça marche ». La partie II se poursuit en élargissant le regard : au-delà du texte, les modèles du monde et le multimodal (chapitre 5), puis le passage à l'action avec les agents (chapitre 6), avant de dresser la carte des acteurs (chapitre 7).