Les modèles du monde (World Models) et le multimodal

5.1Prédire le texte ne suffit pas : comprendre le monde

D'où une idée qui agite la recherche depuis 2025 : pour atteindre une intelligence plus générale, il faudrait des systèmes dotés d'un véritable modèle du monde, c'est-à-dire d'une représentation interne de la manière dont le réel fonctionne et évolue. Le texte, dans cette perspective, n'est qu'une ombre appauvrie et incomplète de la réalité. Le chercheur Yann LeCun en a fait son cheval de bataille : selon lui, on n'atteindra pas l'intelligence en avalant toujours plus de texte, mais en apprenant à partir de signaux plus riches, comme la vidéo et l'interaction avec le monde.

5.2Le multimodal : texte, image, son, vidéo

Sous le capot

Aligner texte et image (l'apprentissage contrastif et CLIP)

Comment fait-on pour qu'un mot et une image « vivent dans le même espace », au point qu'un modèle relie la légende « un chat roux » à la photo correspondante ? La technique clé, popularisée par le modèle CLIP (OpenAI, 2021), est l'apprentissage contrastif. On entraîne en parallèle deux encodeurs, un pour le texte, un pour l'image, sur des centaines de millions de paires (image, légende) glanées sur le web. L'objectif : rapprocher dans l'espace de représentation les paires qui vont ensemble, et éloigner celles qui n'ont rien à voir. À l'arrivée, une image et sa description se retrouvent au même endroit, ce qui permet de retrouver une image à partir d'un texte (et inversement), de classer des images sans étiquettes, et surtout de guider les générateurs d'images : c'est ainsi qu'un modèle de diffusion (ci-dessous) sait faire correspondre une consigne textuelle au visuel produit. L'apprentissage contrastif est devenu l'une des briques de fond du multimodal.

Sous le capot

Comment l'IA génère une image (les modèles de diffusion)

Comment un modèle fabrique-t-il une image à partir d'une simple phrase ? La technique dominante depuis 2022, la diffusion, repose sur une idée contre-intuitive. À l'entraînement, on prend des millions d'images et on les dégrade progressivement en y ajoutant du bruit, jusqu'à obtenir une bouillie aléatoire ; le modèle apprend à faire l'inverse, c'est-à-dire à retirer le bruit étape par étape pour retrouver une image nette. Une fois entraîné, on lui fournit un point de départ purement aléatoire (du bruit) et une description textuelle, et il « débruite » peu à peu ce chaos jusqu'à faire émerger une image conforme à la consigne. C'est ce procédé qui anime les générateurs d'images, et, étendu dans le temps, de vidéos, du chapitre 16. Il a supplanté l'approche antérieure, les réseaux antagonistes génératifs (GAN), où deux réseaux s'affrontaient (l'un fabriquant des images, l'autre tentant de les démasquer) : plus instables à entraîner, les GAN ont largement cédé la place à la diffusion, plus stable et plus contrôlable. La même logique de débruitage guidé inspire aujourd'hui certains modèles du monde (section suivante).

Repère

Représenter le monde en 3D (NeRF et splatting gaussien)

Au-delà des images plates, une famille de techniques reconstruit des scènes en trois dimensions à partir de simples photographies. Les champs de radiance neuronaux (NeRF, 2020) entraînent un petit réseau à prédire, pour chaque point de l'espace et chaque angle de vue, la couleur et la densité de la scène, de sorte qu'on puisse ensuite la « rejouer » sous n'importe quel angle. Une approche plus récente et bien plus rapide, le splatting gaussien (Gaussian splatting, 2023), représente la scène par des millions de petites taches colorées, autorisant un rendu en temps réel. Ces méthodes irriguent le cinéma, les jeux vidéo, la cartographie, et surtout l'entraînement des robots en simulation (chapitre 13) : reconstruire fidèlement un environnement en 3D, c'est offrir aux agents un monde virtuel réaliste où s'exercer. Elles rejoignent ainsi la quête des modèles du monde (sections suivantes), qui cherchent à doter l'IA d'une représentation manipulable de l'espace et de sa dynamique.

5.3Les modèles du monde : définition et enjeux

Attention à ne pas confondre avec un simple générateur de vidéo. La distinction est subtile mais capitale :

Schéma5.1. Générateur de vidéo contre modèle du monde. Le premier produit un clip fixe. Le second est interactif : on peut y agir, et il répond de façon cohérente, image après image. C'est cette boucle action puis conséquence qui en fait un terrain d'entraînement pour des agents et des robots.

5.4Les approches concurrentes (panorama de mi-2026)

En clair

« Modèle du monde » est devenu, en 2026, l'un des termes les plus disputés de l'IA : chacun appelle ainsi son projet. On peut distinguer quatre grandes familles, portées par des acteurs américains, européens et chinois.

Approche	Prédit dans...	Interactif ?	Exemples (2026)	Usage principal
Génération vidéo	l'espace des pixels	Non	Sora (OpenAI), Veo (Google), Kling (Kuaishou), Seedance (ByteDance), Runway	Création de contenu
Spatial / 3D	l'espace 3D	En partie	World Labs : Marble (Fei-Fei Li)	Mondes 3D navigables, jeux, effets visuels
Génératif interactif	pixels ou tokens, conditionné par l'action	Oui	Genie 3 (DeepMind), Cosmos (NVIDIA), GAIA-2 (Wayve)	Entraînement d'agents et de robots en simulation
Latent (JEPA)	un espace abstrait de plongements	Oui	V-JEPA 2 (Meta), AMI Labs (LeCun)	Compréhension et planification efficaces

Tableau 5.1. Les quatre camps des « modèles du monde » en 2026.

Quelques jalons concrets de la période 2025-2026 :

La génération vidéo « comme simulation du monde ». OpenAI a défendu dès 2024, avec Sora, la thèse selon laquelle un modèle entraîné sur assez de vidéos finit par apprendre implicitement la physique, et que l'échelle comblera le reste. Google (Veo), les chinois Kuaishou (Kling) et ByteDance (Seedance, en tête de plusieurs classements de génération vidéo en 2025), ainsi que Runway, suivent une voie proche. Le débat reste ouvert : Sora modélise mal certaines interactions (un verre qui se brise, de la nourriture croquée), et plusieurs études concluent qu'il montre « les débuts d'un modèle du monde » sans en être tout à fait un.
L'intelligence spatiale. World Labs, fondé par Fei-Fei Li (la « marraine » de l'IA, à l'origine d'ImageNet), a lancé fin 2025 le produit Marble, capable de générer des mondes 3D persistants, modifiables et exportables à partir d'un texte ou d'une image. Pour Li, « l'intelligence spatiale est la prochaine frontière de l'IA ».
Les modèles génératifs interactifs. Google DeepMind a dévoilé Genie 3 (août 2025), un modèle capable de générer en temps réel des mondes 3D explorables à 24 images par seconde, ouvert depuis 2026 à certains abonnés via « Project Genie ». NVIDIA, avec sa plateforme Cosmos (plus de deux millions de téléchargements début 2026), fournit des mondes « conscients de la physique » pour entraîner robots et véhicules autonomes en simulation.
L'approche latente (JEPA). C'est le pari de Yann LeCun : plutôt que de prédire les pixels, prédire dans un espace abstrait ce qui va se passer, ce qui serait bien plus efficace et proche de la cognition. Convaincu que les LLM « plafonnent », LeCun a quitté Meta fin 2025 pour fonder à Paris AMI Labs (Advanced Machine Intelligence), levant plus d'un milliard de dollars autour de cette idée. Meta poursuit de son côté ses modèles V-JEPA.

5.5Pourquoi c'est l'un des grands paris de 2026

Repère : du virtuel au réel (sim-to-real). Le principal usage concret des modèles du monde est déjà là : entraîner des agents et des robots en simulation. L'intérêt est évident : dans un monde virtuel, un robot peut tenter des millions d'essais en accéléré, sans risque, sans usure et sans danger, là où l'apprentissage dans le monde réel serait lent et coûteux. Reste le défi central, le fossé entre simulation et réalité (reality gap) : un comportement appris dans un simulateur trop parfait échoue souvent face au désordre du monde réel (frottements, lumières changeantes, capteurs imparfaits). La parade principale s'appelle la randomisation de domaine : on fait délibérément varier mille paramètres de la simulation (textures, éclairages, masses, frictions) pour forcer la stratégie apprise à devenir robuste, de sorte que le monde réel ne soit, pour elle, qu'une variante de plus parmi celles déjà rencontrées. S'y ajoute la production de données synthétiques (des exemples générés plutôt que collectés), de plus en plus utilisée pour entraîner des modèles lorsque les données réelles manquent. C'est le pont le plus tangible entre ce chapitre et la robotique (chapitre 13).

À retenir (chapitre 5)

Les modèles de pointe sont multimodaux : texte, image, son et vidéo, traités dans un espace de représentation commun (tout devient des tokens).
Un modèle du monde est un simulateur interne qui prédit l'état suivant à partir d'une action ; il est interactif, à la différence d'un générateur de vidéo qui produit un clip figé.
Quatre camps s'affrontent en 2026 : génération vidéo (Sora, Veo, Kling, Seedance), spatial/3D (World Labs, Marble), génératif interactif (Genie 3, Cosmos) et latent/JEPA (V-JEPA, AMI Labs de LeCun).
Beaucoup y voient le pont vers l'IA incarnée (robotique) et une étape possible vers l'intelligence générale.
Le débat de fond : la seule échelle suffira-t-elle, ou faut-il de nouvelles architectures ancrées dans la physique ?

Au chapitre suivant, nous passons de la perception et de la simulation à l'action : les agents IA, ces systèmes qui ne se contentent plus de répondre, mais agissent.

5.1Prédire le texte ne suffit pas : comprendre le monde#

5.2Le multimodal : texte, image, son, vidéo#

5.3Les modèles du monde : définition et enjeux#

5.4Les approches concurrentes (panorama de mi-2026)#

5.5Pourquoi c'est l'un des grands paris de 2026#