La revolución Transformer: «la atención es todo lo que necesitas»

3.1El muro de las arquitecturas secuenciales

Para franquear el muro hacía falta una arquitectura capaz de dos proezas simultáneas: procesar toda la secuencia de golpe (para ir rápido) y conectar directamente cualquier palabra con cualquier otra, por alejadas que estén (para no olvidar nada). Es exactamente lo que aporta el mecanismo de atención.

3.2La intuición de la atención

Otra imagen: imagine una reunión en la que, para entender un comentario, usted pondera automáticamente lo que cada participante ha dicho antes en función de su pertinencia. La atención es ese sistema de ponderación, aplicado a gran escala y aprendido automáticamente.

Esquema3.1. El mecanismo de atención en imagen. Para interpretar la palabra «él», el modelo concede un peso elevado a «animal» y un peso bajo a «calle». Esos pesos no los escribe un humano: se aprenden a partir de miles de millones de frases.

Bajo el capó

Técnicamente, cada palabra (más exactamente cada token, véase el capítulo 4) emite tres vectores: una consulta (query: «lo que busco»), una clave (key: «lo que ofrezco») y un valor (value: «la información que porto»). El peso de atención entre dos palabras se calcula comparando la consulta de una con las claves de todas las demás (un producto escalar, normalizado por una función softmax para obtener porcentajes que suman el 100 %). La salida para cada palabra es entonces una suma ponderada de los valores de todas las palabras. Como esta operación se reduce a grandes multiplicaciones de matrices, se paraleliza masivamente en GPU, lo que hace saltar el cerrojo de la lentitud; y como cada palabra puede «mirar» directamente todas las demás, el cerrojo de la amnesia también desaparece. Se habla de autoatención (self-attention) cuando las palabras de una misma secuencia se observan así mutuamente.

3.3La arquitectura Transformer (2017)

Dos ingredientes merecen retenerse:

La atención multicabeza (multi-head attention). En lugar de un único sistema de ponderación, el Transformer hace funcionar varios en paralelo, como otras tantas «miradas» distintas posadas sobre la frase. Una cabeza puede seguir la gramática (concordancia sujeto-verbo), otra el sentido, otra las referencias («él» remite a «animal»). Al combinar estas miradas, el modelo capta relaciones muy ricas.
La codificación posicional (positional encoding). La atención, tal cual, es ciega al orden de las palabras: para ella, «el perro muerde al hombre» y «el hombre muerde al perro» serían idénticos. Por eso se inyecta, en la representación de cada palabra, una información sobre su posición en la frase, a fin de que el orden se preserve.

Esquema3.2. Vista muy simplificada de un Transformer. Un bloque asocia una capa de atención multicabeza y una capa de cálculo; se apilan decenas, incluso centenares, de estos bloques. Son la profundidad y el tamaño de ese apilamiento los que dan la potencia del modelo.

Bajo el capó

La arquitectura original constaba de dos mitades: un codificador (que «comprende» una entrada) y un decodificador (que «genera» una salida), concebidos en un principio para la traducción automática. Muy pronto, dos linajes divergieron. Los modelos de solo codificador, como BERT (Google, 2018), destacan en las tareas de comprensión (clasificación, búsqueda). Los modelos de solo decodificador, como la familia GPT (Generative Pre-trained Transformer), están optimizados para la generación: predicen el token siguiente, una y otra vez, lo que produce texto. Es este segundo linaje, el de solo decodificador, el que se ha impuesto para los grandes modelos generativos que utilizamos hoy. Observe que la misma arquitectura, alimentada con imágenes, sonido o código en lugar de texto, da los modelos multimodales del capítulo 5: el Transformer se ha convertido en una pieza casi universal.

Bajo el capó

Lo que vuelve entrenables los apilamientos profundos (residuos y normalización)

Apilar decenas, incluso centenares, de bloques Transformer plantea un problema práctico: cuanto más profunda es una red, más tiende a degradarse la señal de aprendizaje al remontar las capas (gradientes que se desvanecen o explotan). Dos trucos, discretos pero decisivos, lo resuelven. Las conexiones residuales (residual connections) añaden a la salida de cada capa su propia entrada, creando un «atajo»: así, la información y el gradiente atraviesan toda la red sin apagarse, y cada capa ya solo tiene que aprender una pequeña corrección en lugar de rehacerlo todo. La normalización de capa (layer normalization) reencuadra, en cada etapa, la escala de los valores que circulan, lo que estabiliza y acelera el entrenamiento. Estos dos mecanismos no tienen nada de espectacular, pero sin ellos los modelos enormes de hoy serían sencillamente imposibles de entrenar. Es un buen ejemplo de una verdad recurrente del campo: una gran parte del progreso reside en detalles de ingeniería poco visibles, tanto como en las ideas de principio.

En contexto

La tokenización, o cómo el modelo trocea el texto

Antes de cualquier cálculo, un modelo de lenguaje debe transformar el texto en números. No lee ni letras ni palabras enteras, sino fichas (tokens): fragmentos de palabras, obtenidos por un troceado estadístico (un algoritmo como el Byte Pair Encoding fusiona los pares de caracteres más frecuentes). Una palabra corriente cabe a menudo en un solo token, mientras que una palabra rara o compleja se trocea en varios. Cada token se convierte luego en un vector (un embedding, sección 2.7) que la red puede manipular. Este detalle técnico tiene consecuencias muy concretas. Explica por qué los modelos cuentan mal las letras (¿cuántas «r» hay en «strawberry»?) o tropiezan con la aritmética: no ven los caracteres ni las cifras de uno en uno, sino bloques. Explica también por qué el coste y la longitud de contexto se miden en tokens, y por qué ciertas lenguas, mal representadas en los datos, se trocean en muchos más tokens que el inglés, por lo que resultan más caras de procesar (un ángulo de desigualdad abordado en el capítulo 21).

En contexto

El coste oculto de la atención (la complejidad cuadrática)

El mecanismo de atención tiene un precio: para una secuencia de n palabras, cada palabra debe compararse con todas las demás, es decir, del orden de n por n comparaciones. Se habla de complejidad cuadrática: doblar la longitud del texto no dobla el coste, lo cuadruplica. Es la razón técnica por la que procesar documentos muy largos (una ventana de contexto extendida, capítulo 4) cuesta caro en cálculo y en memoria, y por la que el contexto no es infinito. Por eso, toda una parte de la investigación busca flexibilizar este cerrojo: variantes de atención más económicas (la llamada atención dispersa, o aproximada), implementaciones que optimizan el uso de la memoria (como FlashAttention), o arquitecturas alternativas que buscan recuperar la eficiencia lineal de los antiguos modelos secuenciales sin pagar su precio en rendimiento. Alargar el contexto controlando a la vez este coste cuadrático es uno de los frentes de ingeniería permanentes detrás de los progresos de los grandes modelos.

En contexto

Las alternativas al Transformer (Mamba y modelos de espacio de estados)

El Transformer reina, pero su coste cuadrático en atención (visto arriba) ha reactivado la búsqueda de arquitecturas más económicas para las secuencias muy largas. La vía más en boga es la de los modelos de espacio de estados (State Space Models, SSM), de los que Mamba (2023) es el representante más conocido. La idea se inspira en las antiguas redes recurrentes: procesar la secuencia manteniendo un estado compacto que resume el pasado, lo que da un coste lineal (y ya no cuadrático) con la longitud, y una inferencia muy rápida. Allí donde un Transformer debe, para cada palabra, mirar a todas las demás, un SSM actualiza su estado sobre la marcha. La dificultad está en recuperar, mediante trucos matemáticos, la capacidad del Transformer de seleccionar la información pertinente a largas distancias, algo que las antiguas RNN no sabían hacer. En 2026, estos modelos (a menudo hibridados con algunas capas de atención) siguen siendo minoritarios frente a los Transformers, pero prometedores allí donde el contexto muy largo y la eficiencia priman. Recuerdan una lección: ninguna arquitectura es definitiva, y la que domina hoy podría verse complementada, o incluso superada, mañana.

3.4Las leyes de escalado (scaling laws)

El investigador Richard Sutton resumió la lección filosófica bajo el nombre de «lección amarga» (bitter lesson): a largo plazo, los métodos generales que aprovechan una potencia de cálculo creciente acaban siempre por imponerse sobre los métodos ingeniosos penosamente fabricados a mano por expertos. Frustrante para el ingenio humano, pero notablemente eficaz.

3.5Preentrenamiento, ajuste fino y RLHF

Esquema3.3. El proceso que fabrica un asistente. Es esencialmente este procedimiento el que transformó GPT-3 en ChatGPT a finales de 2022.

El preentrenamiento (pre-training). Se hace ingerir al modelo una fracción colosal del texto disponible (páginas web, libros, código, artículos). En él aprende la gramática, los hechos, el razonamiento, el estilo, simplemente al buscar predecir la continuación. Es la etapa más costosa: semanas de cálculo en miles de procesadores, por decenas, incluso centenares, de millones de dólares.
El ajuste supervisado (supervised fine-tuning, SFT), también llamado ajuste por instrucciones. Se muestra al modelo miles de ejemplos de la forma «pregunta de un usuario, respuesta ideal de un asistente». Así aprende a comportarse como asistente: responder, seguir consignas, adoptar el registro adecuado.
El RLHF (Reinforcement Learning from Human Feedback, aprendizaje por refuerzo a partir de retroalimentación humana). Unos humanos comparan varias respuestas del modelo e indican cuáles prefieren. Un segundo modelo, llamado «modelo de recompensa», aprende esas preferencias y sirve luego para entrenar al modelo principal a producir respuestas juzgadas mejores: más útiles, más honestas, menos tóxicas. Es la etapa que vuelve al asistente agradable y relativamente seguro.

Para recordar (capítulo 3)

El Transformer (2017, artículo «Attention Is All You Need») reemplaza la lectura secuencial por el mecanismo de atención, que conecta directamente todas las palabras entre sí y se paraleliza en GPU.
La atención aprende, para cada palabra, qué otras palabras cuentan y cuánto. La atención multicabeza multiplica esas «miradas»; la codificación posicional preserva el orden de las palabras.
El linaje de solo decodificador (familia GPT) se ha impuesto para la generación de texto.
Las leyes de escalado muestran que el rendimiento crece de forma previsible con el tamaño, los datos y el cálculo, de ahí la carrera por los recursos. Pero sus rendimientos podrían estancarse.
Un asistente se fabrica en tres tiempos: preentrenamiento, ajuste supervisado y luego RLHF. Esta última etapa es también la cuna del problema de alineación.

En el capítulo siguiente, abrimos de par en par el capó del objeto estrella de esta nueva era: el gran modelo de lenguaje en sí mismo.

3.1El muro de las arquitecturas secuenciales#

3.2La intuición de la atención#

3.3La arquitectura Transformer (2017)#

3.4Las leyes de escalado (scaling laws)#

3.5Preentrenamiento, ajuste fino y RLHF#

Para recordar (capítulo 3)

3.1El muro de las arquitecturas secuenciales

3.2La intuición de la atención

3.3La arquitectura Transformer (2017)

3.4Las leyes de escalado (scaling laws)

3.5Preentrenamiento, ajuste fino y RLHF