Parte II · LA ERA DE LOS GRANDES MODELOS

Los modelos del mundo (World Models) y lo multimodal

Capítulo 513 min de lecturaActualizado: junio de 2026

5.1Predecir el texto no basta: comprender el mundo

De ahí una idea que agita la investigación desde 2025: para alcanzar una inteligencia más general, harían falta sistemas dotados de un verdadero modelo del mundo, es decir, de una representación interna de cómo funciona y evoluciona lo real. El texto, desde esta perspectiva, no es más que una sombra empobrecida e incompleta de la realidad. El investigador Yann LeCun ha hecho de ello su caballo de batalla: según él, no se alcanzará la inteligencia engullendo cada vez más texto, sino aprendiendo a partir de señales más ricas, como el vídeo y la interacción con el mundo.

5.2Lo multimodal: texto, imagen, sonido, vídeo

5.3Los modelos del mundo: definición y desafíos

Cuidado con no confundirlo con un simple generador de vídeo. La distinción es sutil pero capital:

Esquema5.1. Generador de vídeo frente a modelo del mundo. El primero produce un clip fijo. El segundo es interactivo: se puede actuar en él, y responde de forma coherente, imagen tras imagen. Es ese bucle acción-consecuencia lo que lo convierte en un terreno de entrenamiento para agentes y robots.

5.4Los enfoques en competencia (panorama de mediados de 2026)

Tabla 5.1. Los cuatro bandos de los «modelos del mundo» en 2026.

Algunos hitos concretos del período 2025-2026:

  • La generación de vídeo «como simulación del mundo». OpenAI defendió ya en 2024, con Sora, la tesis según la cual un modelo entrenado sobre suficientes vídeos termina aprendiendo implícitamente la física, y que la escala cubrirá el resto. Google (Veo), las chinas Kuaishou (Kling) y ByteDance (Seedance, a la cabeza de varias clasificaciones de generación de vídeo en 2025), así como Runway, siguen una vía cercana. El debate sigue abierto: Sora modela mal ciertas interacciones (un vaso que se rompe, comida mordida), y varios estudios concluyen que muestra «los inicios de un modelo del mundo» sin llegar a serlo del todo.
  • La inteligencia espacial. World Labs, fundada por Fei-Fei Li (la «madrina» de la IA, creadora de ImageNet), lanzó a finales de 2025 el producto Marble, capaz de generar mundos 3D persistentes, modificables y exportables a partir de un texto o una imagen. Para Li, «la inteligencia espacial es la próxima frontera de la IA».
  • Los modelos generativos interactivos. Google DeepMind presentó Genie 3 (agosto de 2025), un modelo capaz de generar en tiempo real mundos 3D explorables a 24 imágenes por segundo, abierto desde 2026 a ciertos suscriptores mediante «Project Genie». NVIDIA, con su plataforma Cosmos (más de dos millones de descargas a principios de 2026), proporciona mundos «conscientes de la física» para entrenar robots y vehículos autónomos en simulación.
  • El enfoque latente (JEPA). Es la apuesta de Yann LeCun: en lugar de predecir los píxeles, predecir en un espacio abstracto lo que va a ocurrir, lo que sería mucho más eficaz y cercano a la cognición. Convencido de que los LLM «se estancan», LeCun dejó Meta a finales de 2025 para fundar en París AMI Labs (Advanced Machine Intelligence), recaudando más de mil millones de dólares en torno a esta idea. Meta, por su parte, prosigue con sus modelos V-JEPA.

El interés coincide con el de la sección siguiente, pero transpuesto al software: un entorno real es lento, escaso, costoso y arriesgado, y en él no se inyectan a voluntad los casos límite que un agente, sin embargo, deberá saber gestionar. Un simulador fiel, controlable y reproducible permite, por el contrario, generar cantidades ilimitadas de trayectorias de entrenamiento (una forma de datos sintéticos, capítulo 4), aplicar el aprendizaje por refuerzo a menor coste y sin peligro, y probar un agente antes de soltarlo sobre sistemas reales. Qwen incluso informa de que agentes así entrenados en simulación pueden superar a los entrenados en condiciones reales, y de que ese conocimiento de los entornos se transfiere a tareas de agente sin reentrenamiento específico.

Conviene, no obstante, hacer dos salvedades. La prueba de referencia que mide estos resultados (AgentWorldBench) fue concebida y publicada por el propio equipo: sus márgenes merecen prudencia. Y es el mismo escollo que el abismo entre simulación y realidad que se aborda más adelante: un agente brillante en el simulador puede fracasar ante el desorden del mundo real, pues un modelo del mundo nunca vale más que los datos que lo han nutrido.

5.5Por qué es una de las grandes apuestas de 2026

En contexto: de lo virtual a lo real (sim-to-real). El principal uso concreto de los modelos del mundo ya está aquí: entrenar agentes y robots en simulación. El interés es evidente: en un mundo virtual, un robot puede intentar millones de pruebas en modo acelerado, sin riesgo, sin desgaste y sin peligro, allí donde el aprendizaje en el mundo real sería lento y costoso. Queda el desafío central, el abismo entre simulación y realidad (reality gap): un comportamiento aprendido en un simulador demasiado perfecto fracasa a menudo ante el desorden del mundo real (rozamientos, luces cambiantes, sensores imperfectos). La principal estrategia se denomina aleatorización de dominio: se hacen variar deliberadamente mil parámetros de la simulación (texturas, iluminaciones, masas, fricciones) para forzar a la estrategia aprendida a volverse robusta, de modo que el mundo real no sea, para ella, más que una variante adicional entre las ya encontradas. A ello se añade la producción de datos sintéticos (ejemplos generados en lugar de recopilados), cada vez más utilizada para entrenar modelos cuando los datos reales escasean. Es el puente más tangible entre este capítulo y la robótica (capítulo 13).


Para recordar (capítulo 5)

  • Los modelos de vanguardia son multimodales: texto, imagen, sonido y vídeo, tratados en un espacio de representación común (todo se convierte en tokens).
  • Un modelo del mundo es un simulador interno que predice el estado siguiente a partir de una acción; es interactivo, a diferencia de un generador de vídeo que produce un clip congelado.
  • Cuatro bandos se enfrentan en 2026: generación de vídeo (Sora, Veo, Kling, Seedance), espacial/3D (World Labs, Marble), generativo interactivo (Genie 3, Cosmos) y latente/JEPA (V-JEPA, AMI Labs de LeCun).
  • Una variante surgida en 2026, el modelo del mundo lingüístico (p. ej. Qwen-AgentWorld), simula ya no el mundo físico sino los entornos digitales de los agentes (terminal, web, SO...), para entrenarlos y probarlos sin riesgo (capítulo 6).
  • Muchos ven en ellos el puente hacia la IA encarnada (robótica) y una posible etapa hacia la inteligencia general.
  • El debate de fondo: ¿bastará la sola escala, o harán falta nuevas arquitecturas ancladas en la física?

En el capítulo siguiente, pasamos de la percepción y la simulación a la acción: los agentes IA, esos sistemas que ya no se limitan a responder, sino que actúan.