Parte I · FUNDAMENTOS: COMPRENDER LA IA ANTES DE LOS LLM
La revolución Transformer: «la atención es todo lo que necesitas»
3.1El muro de las arquitecturas secuenciales
Para franquear el muro hacía falta una arquitectura capaz de dos proezas simultáneas: procesar toda la secuencia de golpe (para ir rápido) y conectar directamente cualquier palabra con cualquier otra, por alejadas que estén (para no olvidar nada). Es exactamente lo que aporta el mecanismo de atención.
3.2La intuición de la atención
Otra imagen: imagine una reunión en la que, para entender un comentario, usted pondera automáticamente lo que cada participante ha dicho antes en función de su pertinencia. La atención es ese sistema de ponderación, aplicado a gran escala y aprendido automáticamente.
3.3La arquitectura Transformer (2017)
Dos ingredientes merecen retenerse:
- La atención multicabeza (multi-head attention). En lugar de un único sistema de ponderación, el Transformer hace funcionar varios en paralelo, como otras tantas «miradas» distintas posadas sobre la frase. Una cabeza puede seguir la gramática (concordancia sujeto-verbo), otra el sentido, otra las referencias («él» remite a «animal»). Al combinar estas miradas, el modelo capta relaciones muy ricas.
- La codificación posicional (positional encoding). La atención, tal cual, es ciega al orden de las palabras: para ella, «el perro muerde al hombre» y «el hombre muerde al perro» serían idénticos. Por eso se inyecta, en la representación de cada palabra, una información sobre su posición en la frase, a fin de que el orden se preserve.
3.4Las leyes de escalado (scaling laws)
El investigador Richard Sutton resumió la lección filosófica bajo el nombre de «lección amarga» (bitter lesson): a largo plazo, los métodos generales que aprovechan una potencia de cálculo creciente acaban siempre por imponerse sobre los métodos ingeniosos penosamente fabricados a mano por expertos. Frustrante para el ingenio humano, pero notablemente eficaz.
3.5Preentrenamiento, ajuste fino y RLHF
- El preentrenamiento (pre-training). Se hace ingerir al modelo una fracción colosal del texto disponible (páginas web, libros, código, artículos). En él aprende la gramática, los hechos, el razonamiento, el estilo, simplemente al buscar predecir la continuación. Es la etapa más costosa: semanas de cálculo en miles de procesadores, por decenas, incluso centenares, de millones de dólares.
- El ajuste supervisado (supervised fine-tuning, SFT), también llamado ajuste por instrucciones. Se muestra al modelo miles de ejemplos de la forma «pregunta de un usuario, respuesta ideal de un asistente». Así aprende a comportarse como asistente: responder, seguir consignas, adoptar el registro adecuado.
- El RLHF (Reinforcement Learning from Human Feedback, aprendizaje por refuerzo a partir de retroalimentación humana). Unos humanos comparan varias respuestas del modelo e indican cuáles prefieren. Un segundo modelo, llamado «modelo de recompensa», aprende esas preferencias y sirve luego para entrenar al modelo principal a producir respuestas juzgadas mejores: más útiles, más honestas, menos tóxicas. Es la etapa que vuelve al asistente agradable y relativamente seguro.
Para recordar (capítulo 3)
- El Transformer (2017, artículo «Attention Is All You Need») reemplaza la lectura secuencial por el mecanismo de atención, que conecta directamente todas las palabras entre sí y se paraleliza en GPU.
- La atención aprende, para cada palabra, qué otras palabras cuentan y cuánto. La atención multicabeza multiplica esas «miradas»; la codificación posicional preserva el orden de las palabras.
- El linaje de solo decodificador (familia GPT) se ha impuesto para la generación de texto.
- Las leyes de escalado muestran que el rendimiento crece de forma previsible con el tamaño, los datos y el cálculo, de ahí la carrera por los recursos. Pero sus rendimientos podrían estancarse.
- Un asistente se fabrica en tres tiempos: preentrenamiento, ajuste supervisado y luego RLHF. Esta última etapa es también la cuna del problema de alineación.
En el capítulo siguiente, abrimos de par en par el capó del objeto estrella de esta nueva era: el gran modelo de lenguaje en sí mismo.