Parte I · FUNDAMENTOS: COMPRENDER LA IA ANTES DE LOS LLM
Aprender de los datos: machine learning y deep learning
2.1El cambio de paradigma: programar o aprender
El aprendizaje automático (en inglés machine learning) invierte la lógica. Ya no se le suministran las reglas: se le suministran ejemplos (miles de correos ya etiquetados como «spam» o «no spam»), y es la máquina la que descubre por sí misma las reglas que permiten distinguirlos. Ya no se programa el qué hacer; se programa el cómo aprender.
2.2Tres maneras de aprender
El aprendizaje automático se declina en tres grandes familias, que conviene distinguir bien porque reaparecen por todas partes en lo que sigue.
2.3La neurona artificial y las redes
2.4Cómo aprende una máquina: coste y retropropagación
A fuerza de repetir, el error disminuye y la red se vuelve competente. La imagen más elocuente es la de una caminata en la niebla para bajar a un valle: no se ve el fondo, pero se siente la pendiente bajo los pies, y se da un paso hacia abajo. Repitiendo, se acaba por alcanzar un punto bajo. Esta «pendiente», en matemáticas, se llama el gradiente, y el método se llama el descenso de gradiente.
2.52012: el big bang del deep learning
¿Por qué 2012 y no antes? Porque los tres combustibles que faltaban (capítulo 1) por fin se reúnen:
- Los datos: ImageNet proporciona el gigantesco conjunto de imágenes etiquetadas que faltaba.
- El cómputo: AlexNet se entrena sobre GPU de la empresa NVIDIA. Estos chips, concebidos para calcular en paralelo los píxeles de los videojuegos, resultan ideales para las multiplicaciones masivas de las redes neuronales. Este detalle técnico tendrá consecuencias geopolíticas colosales: convertirá a NVIDIA en una de las empresas más valoradas del mundo (capítulo 8).
- Los algoritmos: ciertos refinamientos (función de activación ReLU, técnica de regularización dropout) permiten entrenar redes más profundas sin que se descarrilen.
2.6Ver y leer: CNN y RNN
2.7Representar el sentido: las incrustaciones (embeddings)
El truco genial: se aprenden estos números de tal modo que las palabras de sentido próximo ocupen posiciones próximas en el espacio. «Gato» y «perro» acaban siendo vecinos; «rey» y «plátano» quedan alejados. El sentido se vuelve geometría.
Más impresionante aún: las direcciones del espacio capturan relaciones. El ejemplo que se ha vuelto célebre (procedente del modelo word2vec, 2013) es casi mágico:
rey − hombre + mujer ≈ reina
Dicho de otro modo, el vector que une «hombre» con «rey» es más o menos el mismo que el que une «mujer» con «reina». La máquina ha descubierto, ella sola y sin que se le dijera, el concepto abstracto de realeza y el de género, simplemente observando cómo se emplean las palabras en miles de millones de frases.
Es la forma moderna de la representación simbólica del conocimiento (capítulo 1), y es lo que estructura entre bastidores numerosos motores de búsqueda (sus recuadros de respuesta). Su fuerza es la precisión y la trazabilidad (se sabe de dónde viene cada hecho); su debilidad, que hay que construirlo y mantenerlo a mano. De ahí el interés creciente por los enfoques neurosimbólicos, que casan la flexibilidad de las redes neuronales y el rigor de los grafos: un LLM puede consultar un grafo de conocimiento para anclar sus respuestas en hechos verificados (una variante estructurada de la generación aumentada por recuperación, capítulo 6) y reducir así sus alucinaciones.
2.8Los tres ingredientes de la IA moderna
Esta tríada esclarece todo el resto del curso:
- La búsqueda de datos plantea las cuestiones de propiedad intelectual y de privacidad (capítulos 21 y 25).
- La búsqueda de cómputo explica la valoración de NVIDIA, la guerra de los chips y la factura energética (capítulos 8 y 10).
- La búsqueda de algoritmos es el objeto de la competición encarnizada entre laboratorios (capítulo 7), y su próximo gran salto, el Transformer, es el tema del capítulo siguiente.
2.9El cerebro y la máquina: una analogía fecunda y engañosa
Para recordar (capítulo 2)
- El aprendizaje automático invierte la programación clásica: ya no se suministran las reglas, se suministran ejemplos, y la máquina aprende las reglas. El resultado se llama un modelo.
- Tres familias: aprendizaje supervisado (con solucionario), no supervisado (sin solucionario), por refuerzo (ensayo-error).
- Una red neuronal apila neuronas artificiales en capas; «profundo» significa «de numerosas capas» (deep learning).
- El aprendizaje se hace mediante descenso de gradiente y retropropagación: se mide el error, y luego se corrige cada peso un pequeño paso para reducirlo.
- 2012 (AlexNet/ImageNet) marca el big bang del deep learning, hecho posible por la conjunción datos + GPU + algoritmos.
- Las incrustaciones (embeddings) transforman el sentido en geometría: es el puente conceptual hacia los grandes modelos de lenguaje.
- Toda IA moderna reposa sobre una tríada: datos, cómputo, algoritmos.
Henos aquí listos para franquear el umbral. En el capítulo 3 narramos la innovación de 2017 que hizo saltar los cerrojos del lenguaje y dio nacimiento a la era de los grandes modelos: el Transformer.