Los modelos del mundo (World Models) y lo multimodal

5.1Predecir el texto no basta: comprender el mundo

De ahí una idea que agita la investigación desde 2025: para alcanzar una inteligencia más general, harían falta sistemas dotados de un verdadero modelo del mundo, es decir, de una representación interna de cómo funciona y evoluciona lo real. El texto, desde esta perspectiva, no es más que una sombra empobrecida e incompleta de la realidad. El investigador Yann LeCun ha hecho de ello su caballo de batalla: según él, no se alcanzará la inteligencia engullendo cada vez más texto, sino aprendiendo a partir de señales más ricas, como el vídeo y la interacción con el mundo.

5.2Lo multimodal: texto, imagen, sonido, vídeo

Bajo el capó

Alinear texto e imagen (el aprendizaje contrastivo y CLIP)

¿Cómo se logra que una palabra y una imagen «vivan en el mismo espacio», hasta el punto de que un modelo relacione el pie de foto «un gato pelirrojo» con la fotografía correspondiente? La técnica clave, popularizada por el modelo CLIP (OpenAI, 2021), es el aprendizaje contrastivo. Se entrenan en paralelo dos codificadores, uno para el texto y otro para la imagen, sobre cientos de millones de pares (imagen, pie de foto) recopilados en la web. El objetivo: acercar en el espacio de representación los pares que van juntos y alejar los que no tienen nada que ver. Al final, una imagen y su descripción acaban en el mismo lugar, lo que permite recuperar una imagen a partir de un texto (y a la inversa), clasificar imágenes sin etiquetas y, sobre todo, guiar los generadores de imágenes: así es como un modelo de difusión (más abajo) sabe hacer corresponder una consigna textual con el visual producido. El aprendizaje contrastivo se ha convertido en uno de los pilares de fondo de lo multimodal.

Bajo el capó

Cómo genera una imagen la IA (los modelos de difusión)

¿Cómo fabrica un modelo una imagen a partir de una simple frase? La técnica dominante desde 2022, la difusión, se basa en una idea contraintuitiva. Durante el entrenamiento, se toman millones de imágenes y se degradan progresivamente añadiéndoles ruido, hasta obtener una papilla aleatoria; el modelo aprende a hacer lo inverso, es decir, a retirar el ruido paso a paso para recuperar una imagen nítida. Una vez entrenado, se le proporciona un punto de partida puramente aleatorio (ruido) y una descripción textual, y «desruida» poco a poco ese caos hasta hacer emerger una imagen conforme a la consigna. Es este procedimiento el que anima los generadores de imágenes y, extendido en el tiempo, de vídeos, del capítulo 16. Ha suplantado al enfoque anterior, las redes generativas antagónicas (GAN), en las que dos redes se enfrentaban (una fabricando imágenes, otra intentando desenmascararlas): más inestables de entrenar, las GAN han cedido en gran medida el sitio a la difusión, más estable y más controlable. La misma lógica de desruidado guiado inspira hoy ciertos modelos del mundo (sección siguiente).

En contexto

Representar el mundo en 3D (NeRF y splatting gaussiano)

Más allá de las imágenes planas, una familia de técnicas reconstruye escenas en tres dimensiones a partir de simples fotografías. Los campos de radiancia neuronales (NeRF, 2020) entrenan a una pequeña red para predecir, en cada punto del espacio y cada ángulo de visión, el color y la densidad de la escena, de modo que luego pueda «reproducirse» desde cualquier ángulo. Un enfoque más reciente y mucho más rápido, el splatting gaussiano (Gaussian splatting, 2023), representa la escena mediante millones de pequeñas manchas de color, lo que autoriza un renderizado en tiempo real. Estos métodos irrigan el cine, los videojuegos, la cartografía y, sobre todo, el entrenamiento de robots en simulación (capítulo 13): reconstruir fielmente un entorno en 3D es ofrecer a los agentes un mundo virtual realista donde ejercitarse. Se suman así a la búsqueda de los modelos del mundo (secciones siguientes), que pretenden dotar a la IA de una representación manipulable del espacio y de su dinámica.

5.3Los modelos del mundo: definición y desafíos

Cuidado con no confundirlo con un simple generador de vídeo. La distinción es sutil pero capital:

Esquema5.1. Generador de vídeo frente a modelo del mundo. El primero produce un clip fijo. El segundo es interactivo: se puede actuar en él, y responde de forma coherente, imagen tras imagen. Es ese bucle acción-consecuencia lo que lo convierte en un terreno de entrenamiento para agentes y robots.

5.4Los enfoques en competencia (panorama de mediados de 2026)

En pocas palabras

«Modelo del mundo» se ha convertido, en 2026, en uno de los términos más disputados de la IA: cada cual llama así a su proyecto. Se pueden distinguir cuatro grandes familias, impulsadas por actores estadounidenses, europeos y chinos.

Enfoque	Predice en...	¿Interactivo?	Ejemplos (2026)	Uso principal
Generación de vídeo	el espacio de los píxeles	No	Sora (OpenAI), Veo (Google), Kling (Kuaishou), Seedance (ByteDance), Runway	Creación de contenido
Espacial / 3D	el espacio 3D	En parte	World Labs: Marble (Fei-Fei Li)	Mundos 3D navegables, juegos, efectos visuales
Generativo interactivo	píxeles o tokens, condicionado por la acción	Sí	Genie 3 (DeepMind), Cosmos (NVIDIA), GAIA-2 (Wayve)	Entrenamiento de agentes y robots en simulación
Latente (JEPA)	un espacio abstracto de plongements	Sí	V-JEPA 2 (Meta), AMI Labs (LeCun)	Comprensión y planificación eficaces

Tabla 5.1. Los cuatro bandos de los «modelos del mundo» en 2026.

Algunos hitos concretos del período 2025-2026:

La generación de vídeo «como simulación del mundo». OpenAI defendió ya en 2024, con Sora, la tesis según la cual un modelo entrenado sobre suficientes vídeos termina aprendiendo implícitamente la física, y que la escala cubrirá el resto. Google (Veo), las chinas Kuaishou (Kling) y ByteDance (Seedance, a la cabeza de varias clasificaciones de generación de vídeo en 2025), así como Runway, siguen una vía cercana. El debate sigue abierto: Sora modela mal ciertas interacciones (un vaso que se rompe, comida mordida), y varios estudios concluyen que muestra «los inicios de un modelo del mundo» sin llegar a serlo del todo.
La inteligencia espacial. World Labs, fundada por Fei-Fei Li (la «madrina» de la IA, creadora de ImageNet), lanzó a finales de 2025 el producto Marble, capaz de generar mundos 3D persistentes, modificables y exportables a partir de un texto o una imagen. Para Li, «la inteligencia espacial es la próxima frontera de la IA».
Los modelos generativos interactivos. Google DeepMind presentó Genie 3 (agosto de 2025), un modelo capaz de generar en tiempo real mundos 3D explorables a 24 imágenes por segundo, abierto desde 2026 a ciertos suscriptores mediante «Project Genie». NVIDIA, con su plataforma Cosmos (más de dos millones de descargas a principios de 2026), proporciona mundos «conscientes de la física» para entrenar robots y vehículos autónomos en simulación.
El enfoque latente (JEPA). Es la apuesta de Yann LeCun: en lugar de predecir los píxeles, predecir en un espacio abstracto lo que va a ocurrir, lo que sería mucho más eficaz y cercano a la cognición. Convencido de que los LLM «se estancan», LeCun dejó Meta a finales de 2025 para fundar en París AMI Labs (Advanced Machine Intelligence), recaudando más de mil millones de dólares en torno a esta idea. Meta, por su parte, prosigue con sus modelos V-JEPA.

En contexto

Simular el mundo digital de los agentes

Las cuatro familias anteriores simulan sobre todo el mundo físico o visual. Pero una rama distinta ha surgido en 2026: simular los entornos digitales en los que actúan los agentes de software (capítulo 6). El ejemplo destacado es Qwen-AgentWorld (Alibaba, junio de 2026, pesos abiertos bajo licencia Apache 2.0), un modelo del mundo llamado lingüístico. El vuelco es el siguiente: en lugar de entrenar un modelo para que actúe en un entorno, se le entrena para que prediga lo que ese entorno devolvería tras una acción, y ello para siete dominios reunidos en un solo modelo (un terminal, un navegador web, un sistema operativo, el protocolo MCP del capítulo 6, la ingeniería de software, Android y la búsqueda). Es, en suma, un simulador de vuelo para agentes.

El interés coincide con el de la sección siguiente, pero transpuesto al software: un entorno real es lento, escaso, costoso y arriesgado, y en él no se inyectan a voluntad los casos límite que un agente, sin embargo, deberá saber gestionar. Un simulador fiel, controlable y reproducible permite, por el contrario, generar cantidades ilimitadas de trayectorias de entrenamiento (una forma de datos sintéticos, capítulo 4), aplicar el aprendizaje por refuerzo a menor coste y sin peligro, y probar un agente antes de soltarlo sobre sistemas reales. Qwen incluso informa de que agentes así entrenados en simulación pueden superar a los entrenados en condiciones reales, y de que ese conocimiento de los entornos se transfiere a tareas de agente sin reentrenamiento específico.

Conviene, no obstante, hacer dos salvedades. La prueba de referencia que mide estos resultados (AgentWorldBench) fue concebida y publicada por el propio equipo: sus márgenes merecen prudencia. Y es el mismo escollo que el abismo entre simulación y realidad que se aborda más adelante: un agente brillante en el simulador puede fracasar ante el desorden del mundo real, pues un modelo del mundo nunca vale más que los datos que lo han nutrido.

5.5Por qué es una de las grandes apuestas de 2026

En contexto: de lo virtual a lo real (sim-to-real). El principal uso concreto de los modelos del mundo ya está aquí: entrenar agentes y robots en simulación. El interés es evidente: en un mundo virtual, un robot puede intentar millones de pruebas en modo acelerado, sin riesgo, sin desgaste y sin peligro, allí donde el aprendizaje en el mundo real sería lento y costoso. Queda el desafío central, el abismo entre simulación y realidad (reality gap): un comportamiento aprendido en un simulador demasiado perfecto fracasa a menudo ante el desorden del mundo real (rozamientos, luces cambiantes, sensores imperfectos). La principal estrategia se denomina aleatorización de dominio: se hacen variar deliberadamente mil parámetros de la simulación (texturas, iluminaciones, masas, fricciones) para forzar a la estrategia aprendida a volverse robusta, de modo que el mundo real no sea, para ella, más que una variante adicional entre las ya encontradas. A ello se añade la producción de datos sintéticos (ejemplos generados en lugar de recopilados), cada vez más utilizada para entrenar modelos cuando los datos reales escasean. Es el puente más tangible entre este capítulo y la robótica (capítulo 13).

Para recordar (capítulo 5)

Los modelos de vanguardia son multimodales: texto, imagen, sonido y vídeo, tratados en un espacio de representación común (todo se convierte en tokens).
Un modelo del mundo es un simulador interno que predice el estado siguiente a partir de una acción; es interactivo, a diferencia de un generador de vídeo que produce un clip congelado.
Cuatro bandos se enfrentan en 2026: generación de vídeo (Sora, Veo, Kling, Seedance), espacial/3D (World Labs, Marble), generativo interactivo (Genie 3, Cosmos) y latente/JEPA (V-JEPA, AMI Labs de LeCun).
Una variante surgida en 2026, el modelo del mundo lingüístico (p. ej. Qwen-AgentWorld), simula ya no el mundo físico sino los entornos digitales de los agentes (terminal, web, SO...), para entrenarlos y probarlos sin riesgo (capítulo 6).
Muchos ven en ellos el puente hacia la IA encarnada (robótica) y una posible etapa hacia la inteligencia general.
El debate de fondo: ¿bastará la sola escala, o harán falta nuevas arquitecturas ancladas en la física?

En el capítulo siguiente, pasamos de la percepción y la simulación a la acción: los agentes IA, esos sistemas que ya no se limitan a responder, sino que actúan.

5.1Predecir el texto no basta: comprender el mundo#

5.2Lo multimodal: texto, imagen, sonido, vídeo#

5.3Los modelos del mundo: definición y desafíos#

5.4Los enfoques en competencia (panorama de mediados de 2026)#

5.5Por qué es una de las grandes apuestas de 2026#