Partie II · L'ère des grands modèles
Les modèles du monde (World Models) et le multimodal
5.1Prédire le texte ne suffit pas : comprendre le monde
D'où une idée qui agite la recherche depuis 2025 : pour atteindre une intelligence plus générale, il faudrait des systèmes dotés d'un véritable modèle du monde, c'est-à-dire d'une représentation interne de la manière dont le réel fonctionne et évolue. Le texte, dans cette perspective, n'est qu'une ombre appauvrie et incomplète de la réalité. Le chercheur Yann LeCun en a fait son cheval de bataille : selon lui, on n'atteindra pas l'intelligence en avalant toujours plus de texte, mais en apprenant à partir de signaux plus riches, comme la vidéo et l'interaction avec le monde.
5.2Le multimodal : texte, image, son, vidéo
5.3Les modèles du monde : définition et enjeux
Attention à ne pas confondre avec un simple générateur de vidéo. La distinction est subtile mais capitale :
5.4Les approches concurrentes (panorama de mi-2026)
Tableau 5.1. Les quatre camps des « modèles du monde » en 2026.
Quelques jalons concrets de la période 2025-2026 :
- La génération vidéo « comme simulation du monde ». OpenAI a défendu dès 2024, avec Sora, la thèse selon laquelle un modèle entraîné sur assez de vidéos finit par apprendre implicitement la physique, et que l'échelle comblera le reste. Google (Veo), les chinois Kuaishou (Kling) et ByteDance (Seedance, en tête de plusieurs classements de génération vidéo en 2025), ainsi que Runway, suivent une voie proche. Le débat reste ouvert : Sora modélise mal certaines interactions (un verre qui se brise, de la nourriture croquée), et plusieurs études concluent qu'il montre « les débuts d'un modèle du monde » sans en être tout à fait un.
- L'intelligence spatiale. World Labs, fondé par Fei-Fei Li (la « marraine » de l'IA, à l'origine d'ImageNet), a lancé fin 2025 le produit Marble, capable de générer des mondes 3D persistants, modifiables et exportables à partir d'un texte ou d'une image. Pour Li, « l'intelligence spatiale est la prochaine frontière de l'IA ».
- Les modèles génératifs interactifs. Google DeepMind a dévoilé Genie 3 (août 2025), un modèle capable de générer en temps réel des mondes 3D explorables à 24 images par seconde, ouvert depuis 2026 à certains abonnés via « Project Genie ». NVIDIA, avec sa plateforme Cosmos (plus de deux millions de téléchargements début 2026), fournit des mondes « conscients de la physique » pour entraîner robots et véhicules autonomes en simulation.
- L'approche latente (JEPA). C'est le pari de Yann LeCun : plutôt que de prédire les pixels, prédire dans un espace abstrait ce qui va se passer, ce qui serait bien plus efficace et proche de la cognition. Convaincu que les LLM « plafonnent », LeCun a quitté Meta fin 2025 pour fonder à Paris AMI Labs (Advanced Machine Intelligence), levant plus d'un milliard de dollars autour de cette idée. Meta poursuit de son côté ses modèles V-JEPA.
5.5Pourquoi c'est l'un des grands paris de 2026
Repère : du virtuel au réel (sim-to-real). Le principal usage concret des modèles du monde est déjà là : entraîner des agents et des robots en simulation. L'intérêt est évident : dans un monde virtuel, un robot peut tenter des millions d'essais en accéléré, sans risque, sans usure et sans danger, là où l'apprentissage dans le monde réel serait lent et coûteux. Reste le défi central, le fossé entre simulation et réalité (reality gap) : un comportement appris dans un simulateur trop parfait échoue souvent face au désordre du monde réel (frottements, lumières changeantes, capteurs imparfaits). La parade principale s'appelle la randomisation de domaine : on fait délibérément varier mille paramètres de la simulation (textures, éclairages, masses, frictions) pour forcer la stratégie apprise à devenir robuste, de sorte que le monde réel ne soit, pour elle, qu'une variante de plus parmi celles déjà rencontrées. S'y ajoute la production de données synthétiques (des exemples générés plutôt que collectés), de plus en plus utilisée pour entraîner des modèles lorsque les données réelles manquent. C'est le pont le plus tangible entre ce chapitre et la robotique (chapitre 13).
À retenir (chapitre 5)
- Les modèles de pointe sont multimodaux : texte, image, son et vidéo, traités dans un espace de représentation commun (tout devient des tokens).
- Un modèle du monde est un simulateur interne qui prédit l'état suivant à partir d'une action ; il est interactif, à la différence d'un générateur de vidéo qui produit un clip figé.
- Quatre camps s'affrontent en 2026 : génération vidéo (Sora, Veo, Kling, Seedance), spatial/3D (World Labs, Marble), génératif interactif (Genie 3, Cosmos) et latent/JEPA (V-JEPA, AMI Labs de LeCun).
- Beaucoup y voient le pont vers l'IA incarnée (robotique) et une étape possible vers l'intelligence générale.
- Le débat de fond : la seule échelle suffira-t-elle, ou faut-il de nouvelles architectures ancrées dans la physique ?
Au chapitre suivant, nous passons de la perception et de la simulation à l'action : les agents IA, ces systèmes qui ne se contentent plus de répondre, mais agissent.