Los grandes modelos de lenguaje (LLM)

4.1¿Qué es un LLM, en el fondo?

Una manera impactante de formularlo: un LLM es una función que, habiendo leído una cantidad de texto que ningún humano podría leer en mil vidas, ha comprimido en sus parámetros una parte inmensa de las regularidades del lenguaje y, a través de él, del mundo.

Debate

¿comprenden de verdad?

Es la controversia intelectual del campo. Por un lado, investigadoras como Emily Bender calificaron estos modelos de «loros estocásticos» (2021): no harían más que regurgitar combinaciones estadísticamente plausibles de palabras, sin comprensión alguna. Por otro, hay investigadores que observan que, para predecir tan bien la palabra siguiente sobre temas tan variados, un modelo debe haber construido representaciones internas estructuradas que se parecen mucho a conceptos, e incluso a un embrión de «modelo del mundo» (capítulo 5). La postura honesta, en 2026, es intermedia: estos sistemas manipulan regularidades a una escala tal que su comportamiento es a menudo indistinguible de una comprensión, sin que se pueda zanjar con certeza la cuestión filosófica de si «comprenden». Lo seguro es que la metáfora del simple loro ya no basta para dar cuenta de sus capacidades de razonamiento.

Bajo el capó

Cómo elige el modelo la palabra siguiente (la decodificación)

En cada paso, un LLM no produce una palabra, sino una probabilidad para cada una de las palabras (fichas) posibles: por ejemplo, después de «el cielo está», atribuye una probabilidad alta a «azul», una más baja a «gris» y una ínfima a «tarta». Queda elegir una: esa es la etapa de la decodificación. El método más simple, llamado voraz, toma siempre la más probable, pero produce un texto plano y repetitivo. En la práctica, se muestrea: se sortea una palabra respetando las probabilidades, lo que introduce variedad. Un ajuste, la temperatura, regula este sorteo: cerca de cero, el modelo se vuelve casi determinista y prudente (útil para código o hechos); más elevada, se atreve con opciones menos probables y se muestra más creativo (útil para escribir un relato), a riesgo de descarrilar. Por eso un mismo modelo, ante una misma pregunta, puede dar respuestas distintas de una vez a otra: no por capricho, sino porque el azar del sorteo está, por diseño, en el corazón de la generación.

4.2Las fichas (tokens): la «moneda» de la IA

¿Por qué es esto crucial? Por dos razones muy concretas:

La ventana de contexto (context window) es el número máximo de tokens que el modelo puede «mantener en mente» simultáneamente. Los tamaños varían mucho según los modelos: muchos se sitúan en 2026 entre 128 000 y 256 000 tokens (el equivalente a un libro voluminoso), y numerosos modelos de frontera alcanzan ya el millón de tokens, o incluso más. Más allá de su ventana, el modelo ya no «ve» el inicio de la conversación o del documento; en la práctica, su capacidad de aprovechar un contexto muy largo se degrada a menudo bastante antes de ese límite.
El precio se cuenta en tokens. El uso de un modelo por interfaz de programación (API) se factura por millón de tokens consumidos, en entrada (lo que se le envía) y en salida (lo que genera). El fabricante de chips NVIDIA llega a describir los tokens como «el lenguaje y la moneda de la IA»: optimizar el coste por token se ha convertido en un reto industrial mayor (capítulos 8 y 9).

4.3Anatomía de un entrenamiento

En pocas palabras

Retomemos el flujo del capítulo 3 precisando lo que es propio de los LLM.

Los datos. Se reúne un corpus gigantesco: gran parte de la web pública, libros digitalizados, enormes volúmenes de código informático, artículos. Esta materia prima se depura después (eliminación de duplicados, de contenidos de muy baja calidad, filtrado). Hoy se considera que la calidad de los datos es tan determinante como su cantidad, lo que plantea cuestiones jurídicas (derechos de autor) y éticas abordadas en los capítulos 21 y 25.
El preentrenamiento. El cálculo se realiza en clústeres de miles de procesadores especializados (capítulo 8) durante semanas o meses. Conforme a las enseñanzas de «Chinchilla» (capítulo 3), se busca el equilibrio adecuado entre el número de parámetros y el volumen de datos.
El postentrenamiento (ajuste supervisado y luego RLHF) transforma el modelo en bruto en un asistente.

Bajo el capó

Los modelos de expertos (MoE)

Una innovación de arquitectura explica en parte cómo los modelos de 2024-2026 se volvieron a la vez más potentes y más económicos: la mezcla de expertos (en inglés Mixture of Experts, MoE). En lugar de una única red densa donde todos los parámetros se activan en cada palabra, el modelo se divide en numerosas subredes especializadas, los «expertos», y un pequeño enrutador (router) solo solicita, para cada ficha, a los dos o tres expertos más pertinentes. Resultado: un modelo puede contar con cientos de miles de millones, e incluso billones de parámetros «en reserva», activando solo una fracción en cada cálculo, por tanto a un coste mucho menor que el de un modelo denso equivalente. Es uno de los resortes del impacto de DeepSeek (capítulo 9) y de la mayoría de los grandes modelos recientes. El reverso: estos modelos son más complejos de entrenar y de servir (hay que equilibrar la carga entre expertos), pero la ganancia de eficiencia se impone con creces.

En contexto

El muro de datos

Toda esta mecánica se apoya en una materia prima finita: el texto escrito por humanos. Ahora bien, los mayores modelos ya han ingerido lo esencial de lo accesible públicamente, de ahí el temor a un «muro de datos» (data wall). Un estudio de referencia (el instituto Epoch AI, 2024) estima, con un margen de incertidumbre, que el acervo de texto humano público de calidad podría agotarse entre 2026 y 2032, o incluso antes si se «sobreentrena» a los modelos (alimentarlos varias veces con las mismas fuentes para ganar eficiencia). A finales de 2024 y principios de 2025, varias voces del sector popularizaron la imagen de los datos como «petróleo» de la IA, un recurso que se agota. Se perfilan tres respuestas. Primero, comprar datos, de ahí la ola de contratos de licencia entre laboratorios y poseedores de contenidos (prensa, foros, archivos, capítulos 16 y 21). Después, cambiar de materia, explotando la imagen, el vídeo y el sonido (lo multimodal, capítulo 5), mucho más abundantes que el texto. Por último, y sobre todo, fabricar datos sintéticos, producidos por los propios modelos, en particular para entrenar el razonamiento (sección siguiente). Pero esta última vía tiene un reverso conocido: entrenar demasiado a un modelo con su propia producción degrada su calidad; es el colapso del modelo (model collapse, capítulo 16). Queda la incógnita de fondo: ¿frenará realmente este muro los avances, o las ganancias de eficiencia (aprender mejor con menos) lo aplazarán?

4.4Capacidades emergentes y alucinaciones

Pero estos modelos sufren de un defecto notorio: las alucinaciones. El modelo afirma, con el mismo aplomo tranquilo que para una verdad, informaciones falsas: una cita inventada, una referencia jurídica inexistente, un hecho erróneo. La razón es estructural: un LLM está optimizado para producir texto plausible, no texto verdadero. No tiene, por construcción, una noción interna de «no lo sé»; ante una laguna, la rellena con lo que más se parece a una respuesta verosímil.

Las consecuencias pueden ser graves (errores médicos, falsas jurisprudencias citadas ante el tribunal). Existen varias defensas, que progresan:

La generación aumentada por recuperación (RAG, véase el capítulo 2): se le proporcionan al modelo documentos fiables recuperados al vuelo, en los que debe apoyarse.
El uso de herramientas: delegar el cálculo en una calculadora, los hechos recientes en un motor de búsqueda (capítulo 6).
Las citas verificables y la mejora continua del entrenamiento.
El razonamiento explícito (sección siguiente), que reduce ciertos errores.

En contexto

El arte de la instrucción (prompt y context engineering)

La calidad de una respuesta depende enormemente de cómo se solicita. La ingeniería de instrucciones (prompt engineering) es el arte de formular las peticiones para sacar lo mejor de un modelo: dar contexto, proporcionar ejemplos (el modelo aprende «al vuelo» a partir de unos pocos casos, lo que se llama aprendizaje en contexto), precisar el formato esperado o pedir al modelo que «reflexione paso a paso» (lo que enlaza con la cadena de pensamiento de la sección siguiente). Con el auge de los agentes (capítulo 6), la disciplina se ha ampliado hacia la ingeniería de contexto (context engineering): ya no se trata solo de la pregunta formulada, sino de todo lo que se coloca en la ventana de contexto del modelo en el momento adecuado (instrucciones, memoria, documentos recuperados por RAG, resultados de herramientas). Dosificar bien ese contexto, ni demasiado poco ni demasiado, se ha convertido en una competencia clave para fiabilizar modelos y agentes.

4.5El razonamiento: cadena de pensamiento y modelos «thinking»

Los laboratorios entrenaron entonces modelos de razonamiento (o modelos «thinking»): modelos que producen una larga reflexión interna antes de entregar su respuesta, dedicando más cálculo en el momento de responder (se habla de test-time compute, el cálculo en la inferencia). En lugar de responder de inmediato, el modelo «se toma el tiempo de pensar», explora pistas, se corrige.

Esquema4.1. Respuesta directa frente a razonamiento explícito. El modelo de razonamiento es más lento y más costoso, pero notablemente más fiable en los problemas complejos.

Este cambio desplazó la frontera del rendimiento: ya no se gana solo agrandando el preentrenamiento, sino también dejando que el modelo piense más tiempo. Los primeros modelos de esta generación fueron la línea o1 y luego o3 de OpenAI (finales de 2024 y 2025) y el modelo abierto DeepSeek-R1 (principios de 2025), que causó sensación al alcanzar un excelente nivel de razonamiento a un coste muy reducido. En 2026, las grandes familias (Claude, Gemini, GPT, Grok) ofrecen todas un modo de razonamiento.

4.6Evaluar un modelo: los benchmarks

En pocas palabras

¿Cómo saber si un modelo es «mejor» que otro? Se utilizan pruebas de referencia (benchmarks): exámenes estandarizados. Los más citados en 2026:

MMLU: un vasto cuestionario de cultura general y académica.
GPQA: preguntas de nivel doctorado en ciencias, concebidas para resistir a la simple búsqueda.
SWE-bench: la resolución de problemas reales de ingeniería de software extraídos de repositorios de código, convertido en la referencia para medir la utilidad real en programación.
Humanity's Last Exam: un examen voluntariamente extremo, al límite de los conocimientos humanos.
FrontierMath: problemas de matemáticas de nivel de investigación, validados por expertos, en los que incluso los mejores modelos seguían tropezando en gran medida a mediados de 2026.
ARC-AGI: una prueba de razonamiento abstracto, pensada para medir la capacidad de generalizar más que de memorizar.
Las arenas de preferencia humana (como LMArena, antiguamente Chatbot Arena), donde humanos votan a ciegas por la mejor respuesta entre dos modelos. Es uno de los indicadores más difíciles de manipular, porque mide la satisfacción real de los usuarios.
Los agregadores independientes (como Artificial Analysis), que recopilan los rendimientos en numerosas pruebas y les añaden mediciones de velocidad y de coste, útiles para comparar los modelos desde un ángulo práctico.

En contexto

La perplejidad, la «sorpresa» del modelo

Incluso antes de los grandes paneles de control (más abajo), la medida histórica de la calidad de un modelo de lenguaje es la perplejidad. La idea: se presenta al modelo un texto que nunca ha visto y se observa hasta qué punto le «sorprende» cada palabra, es decir, qué probabilidad le otorgaba. Cuanto más baja es la perplejidad, mejor ha anticipado el modelo el texto y, por tanto, mejor ha captado sus regularidades. Es una medida directa del objetivo de entrenamiento (predecir la palabra siguiente, capítulo 3), valiosa para seguir los progresos durante el entrenamiento y comparar modelos sobre un mismo corpus. Su límite: evalúa la predicción, no la utilidad. Un modelo puede exhibir una excelente perplejidad sin ser por ello bueno en razonamiento, en seguimiento de instrucciones o en seguridad, de ahí el recurso, como complemento, a las pruebas por tareas descritas más abajo.

Panorama a mediados de 2026. La cima del arte está reñidamente disputada, y la clasificación cambia casi cada mes; lo que sigue es una instantánea. Del lado estadounidense, la familia Claude de Anthropic, la línea GPT-5 de OpenAI, Gemini 3 de Google DeepMind y Grok de xAI libran una competencia cerrada. Del lado chino, modelos a menudo en pesos abiertos y de muy bajo coste, como DeepSeek y Qwen (Alibaba), alcanzan un nivel cercano a la frontera. Del lado europeo, el francés Mistral lleva la bandera de la soberanía. En 2026 se perfilan algunas tendencias claras: en las arenas de preferencia humana, las variantes de Claude ocuparon los primeros puestos buena parte del año; en código (SWE-bench), la cabeza se la disputan Claude, Grok y GPT; Gemini brilla en varias pruebas de razonamiento y en lo multimodal; y los modelos de pesos abiertos ofrecen ya una calidad casi equivalente por una fracción del precio, lo que sacude toda la economía del sector.

En contexto

Los principales productos (instantánea de mediados de 2026)

Algunas referencias concretas, teniendo presente que las versiones cambian casi cada mes. Anthropic declina Claude en escalones: Opus (el más potente), Sonnet (equilibrado) y Haiku (rápido y económico), en torno a la generación 4.x; a ello se añade una familia «de frontera» aún más capaz y rodeada de salvaguardas reforzadas (gama Mythos / Fable), cuyo acceso más avanzado se restringió temporalmente por razones de control de las exportaciones (capítulos 20 y 25). OpenAI hace evolucionar GPT-5 por incrementos próximos (hasta las versiones GPT-5.5 a mediados de 2026), con variantes Codex especializadas en código (capítulo 6). Google ofrece Gemini 3 en versiones Pro (razonamiento avanzado) y Flash (rápida y económica), declinadas hasta la generación 3.5. xAI desarrolla Grok, integrado en la red social X. Del lado chino, DeepSeek y Qwen (Alibaba), a menudo en pesos abiertos, se mantienen cerca de la frontera, junto a Kimi (Moonshot) o MiniMax. En Europa, Mistral declina modelos abiertos y propietarios.

La gran lección de 2026, sobre la que volveremos en el capítulo 7, cabe en una frase: ya no existe un «mejor modelo» en términos absolutos, sino un mejor modelo para cada tarea. Las organizaciones más avanzadas practican el «enrutamiento» (routing): confiar cada solicitud al modelo mejor adaptado en términos de calidad, velocidad y coste. Y toda clasificación debe leerse como una fotografía, válida en un instante dado.

Para recordar (capítulo 4)

Un LLM es un Transformer entrenado a gran escala para predecir el token siguiente; de ese objetivo emergen conversación, traducción, código y razonamiento.
Los modelos razonan en tokens (fragmentos de palabras), lo que define la ventana de contexto y el precio (facturado por millón de tokens).
El entrenamiento (inversión única y masiva) se distingue de la inferencia (coste recurrente en cada solicitud); la destilación produce versiones ligeras y baratas.
La materia prima, el texto humano de calidad, podría agotarse hacia 2026-2032 (el «muro de datos»), de ahí el recurso a las licencias, a lo multimodal y a los datos sintéticos.
Las alucinaciones son estructurales (el modelo apunta a lo plausible, no a lo verdadero); se atenúan mediante el RAG, el uso de herramientas y el razonamiento, sin eliminarlas.
Los modelos de razonamiento «piensan» más tiempo en el momento de responder, desplazando la frontera del rendimiento hacia el cálculo en la inferencia.
Los benchmarks miden los progresos pero sufren de saturación, de contaminación y del efecto Goodhart. A mediados de 2026, la frontera está disputada entre actores estadounidenses, chinos y europeos, sin vencedor único.

Tenemos ya una visión completa del «cómo funciona». La parte II prosigue ampliando la mirada: más allá del texto, los modelos del mundo y lo multimodal (capítulo 5), luego el paso a la acción con los agentes (capítulo 6), antes de trazar el mapa de los actores (capítulo 7).

4.1¿Qué es un LLM, en el fondo?#

4.2Las fichas (tokens): la «moneda» de la IA#

4.3Anatomía de un entrenamiento#

4.4Capacidades emergentes y alucinaciones#

4.5El razonamiento: cadena de pensamiento y modelos «thinking»#

4.6Evaluar un modelo: los benchmarks#

Para recordar (capítulo 4)

4.1¿Qué es un LLM, en el fondo?

4.2Las fichas (tokens): la «moneda» de la IA

4.3Anatomía de un entrenamiento

4.4Capacidades emergentes y alucinaciones

4.5El razonamiento: cadena de pensamiento y modelos «thinking»

4.6Evaluar un modelo: los benchmarks