Parte II · LA ERA DE LOS GRANDES MODELOS

Los grandes modelos de lenguaje (LLM)

Capítulo 417 min de lecturaActualizado: junio de 2026

4.1¿Qué es un LLM, en el fondo?

Una manera impactante de formularlo: un LLM es una función que, habiendo leído una cantidad de texto que ningún humano podría leer en mil vidas, ha comprimido en sus parámetros una parte inmensa de las regularidades del lenguaje y, a través de él, del mundo.

4.2Las fichas (tokens): la «moneda» de la IA

¿Por qué es esto crucial? Por dos razones muy concretas:

  • La ventana de contexto (context window) es el número máximo de tokens que el modelo puede «mantener en mente» simultáneamente. Los tamaños varían mucho según los modelos: muchos se sitúan en 2026 entre 128 000 y 256 000 tokens (el equivalente a un libro voluminoso), y numerosos modelos de frontera alcanzan ya el millón de tokens, o incluso más. Más allá de su ventana, el modelo ya no «ve» el inicio de la conversación o del documento; en la práctica, su capacidad de aprovechar un contexto muy largo se degrada a menudo bastante antes de ese límite.
  • El precio se cuenta en tokens. El uso de un modelo por interfaz de programación (API) se factura por millón de tokens consumidos, en entrada (lo que se le envía) y en salida (lo que genera). El fabricante de chips NVIDIA llega a describir los tokens como «el lenguaje y la moneda de la IA»: optimizar el coste por token se ha convertido en un reto industrial mayor (capítulos 8 y 9).

4.3Anatomía de un entrenamiento

4.4Capacidades emergentes y alucinaciones

Pero estos modelos sufren de un defecto notorio: las alucinaciones. El modelo afirma, con el mismo aplomo tranquilo que para una verdad, informaciones falsas: una cita inventada, una referencia jurídica inexistente, un hecho erróneo. La razón es estructural: un LLM está optimizado para producir texto plausible, no texto verdadero. No tiene, por construcción, una noción interna de «no lo sé»; ante una laguna, la rellena con lo que más se parece a una respuesta verosímil.

Las consecuencias pueden ser graves (errores médicos, falsas jurisprudencias citadas ante el tribunal). Existen varias defensas, que progresan:

  • La generación aumentada por recuperación (RAG, véase el capítulo 2): se le proporcionan al modelo documentos fiables recuperados al vuelo, en los que debe apoyarse.
  • El uso de herramientas: delegar el cálculo en una calculadora, los hechos recientes en un motor de búsqueda (capítulo 6).
  • Las citas verificables y la mejora continua del entrenamiento.
  • El razonamiento explícito (sección siguiente), que reduce ciertos errores.

4.5El razonamiento: cadena de pensamiento y modelos «thinking»

Los laboratorios entrenaron entonces modelos de razonamiento (o modelos «thinking»): modelos que producen una larga reflexión interna antes de entregar su respuesta, dedicando más cálculo en el momento de responder (se habla de test-time compute, el cálculo en la inferencia). En lugar de responder de inmediato, el modelo «se toma el tiempo de pensar», explora pistas, se corrige.

Esquema4.1. Respuesta directa frente a razonamiento explícito. El modelo de razonamiento es más lento y más costoso, pero notablemente más fiable en los problemas complejos.

Este cambio desplazó la frontera del rendimiento: ya no se gana solo agrandando el preentrenamiento, sino también dejando que el modelo piense más tiempo. Los primeros modelos de esta generación fueron la línea o1 y luego o3 de OpenAI (finales de 2024 y 2025) y el modelo abierto DeepSeek-R1 (principios de 2025), que causó sensación al alcanzar un excelente nivel de razonamiento a un coste muy reducido. En 2026, las grandes familias (Claude, Gemini, GPT, Grok) ofrecen todas un modo de razonamiento.

4.6Evaluar un modelo: los benchmarks

Panorama a mediados de 2026. La cima del arte está reñidamente disputada, y la clasificación cambia casi cada mes; lo que sigue es una instantánea. Del lado estadounidense, la familia Claude de Anthropic, la línea GPT-5 de OpenAI, Gemini 3 de Google DeepMind y Grok de xAI libran una competencia cerrada. Del lado chino, modelos a menudo en pesos abiertos y de muy bajo coste, como DeepSeek y Qwen (Alibaba), alcanzan un nivel cercano a la frontera. Del lado europeo, el francés Mistral lleva la bandera de la soberanía. En 2026 se perfilan algunas tendencias claras: en las arenas de preferencia humana, las variantes de Claude ocuparon los primeros puestos buena parte del año; en código (SWE-bench), la cabeza se la disputan Claude, Grok y GPT; Gemini brilla en varias pruebas de razonamiento y en lo multimodal; y los modelos de pesos abiertos ofrecen ya una calidad casi equivalente por una fracción del precio, lo que sacude toda la economía del sector.

La gran lección de 2026, sobre la que volveremos en el capítulo 7, cabe en una frase: ya no existe un «mejor modelo» en términos absolutos, sino un mejor modelo para cada tarea. Las organizaciones más avanzadas practican el «enrutamiento» (routing): confiar cada solicitud al modelo mejor adaptado en términos de calidad, velocidad y coste. Y toda clasificación debe leerse como una fotografía, válida en un instante dado.


Para recordar (capítulo 4)

  • Un LLM es un Transformer entrenado a gran escala para predecir el token siguiente; de ese objetivo emergen conversación, traducción, código y razonamiento.
  • Los modelos razonan en tokens (fragmentos de palabras), lo que define la ventana de contexto y el precio (facturado por millón de tokens).
  • El entrenamiento (inversión única y masiva) se distingue de la inferencia (coste recurrente en cada solicitud); la destilación produce versiones ligeras y baratas.
  • La materia prima, el texto humano de calidad, podría agotarse hacia 2026-2032 (el «muro de datos»), de ahí el recurso a las licencias, a lo multimodal y a los datos sintéticos.
  • Las alucinaciones son estructurales (el modelo apunta a lo plausible, no a lo verdadero); se atenúan mediante el RAG, el uso de herramientas y el razonamiento, sin eliminarlas.
  • Los modelos de razonamiento «piensan» más tiempo en el momento de responder, desplazando la frontera del rendimiento hacia el cálculo en la inferencia.
  • Los benchmarks miden los progresos pero sufren de saturación, de contaminación y del efecto Goodhart. A mediados de 2026, la frontera está disputada entre actores estadounidenses, chinos y europeos, sin vencedor único.

Tenemos ya una visión completa del «cómo funciona». La parte II prosigue ampliando la mirada: más allá del texto, los modelos del mundo y lo multimodal (capítulo 5), luego el paso a la acción con los agentes (capítulo 6), antes de trazar el mapa de los actores (capítulo 7).