Aprender de los datos: machine learning y deep learning

2.1El cambio de paradigma: programar o aprender

El aprendizaje automático (en inglés machine learning) invierte la lógica. Ya no se le suministran las reglas: se le suministran ejemplos (miles de correos ya etiquetados como «spam» o «no spam»), y es la máquina la que descubre por sí misma las reglas que permiten distinguirlos. Ya no se programa el qué hacer; se programa el cómo aprender.

Esquema2.1. La inversión fundamental. La máquina ya no recibe las reglas: las aprende a partir de ejemplos. El producto de ese aprendizaje se llama un modelo.

2.2Tres maneras de aprender

El aprendizaje automático se declina en tres grandes familias, que conviene distinguir bien porque reaparecen por todas partes en lo que sigue.

Esquema2.2. Las tres grandes familias de aprendizaje.

En pocas palabras

, con analogías:

Aprendizaje supervisado: aprender con un profesor que corrige. Se le muestran al alumno miles de ejercicios acompañados de su solución. De ahí deduce un método general, que aplicará luego a ejercicios inéditos. Es la forma más extendida: reconocimiento de imágenes, traducción, predicción de precios.
Aprendizaje no supervisado: explorar sin solucionario. Se le da al alumno un montón de documentos sin ninguna indicación, y se le pide que ponga orden en ellos: agrupar lo que se parece, detectar lo que desentona. Así es como se segmenta una clientela o se detecta un fraude bancario (una transacción «anómala»).
Aprendizaje por refuerzo (en inglés reinforcement learning, RL): aprender por ensayo y error. El alumno actúa en un entorno, recibe una recompensa cuando acierta, una penalización cuando falla, y ajusta poco a poco su comportamiento para maximizar sus recompensas. Así es como se entrena una IA para jugar, para pilotar un robot y, ya lo veremos, para hacer que los LLM sean útiles y educados.

En contexto

Más allá de los tres grandes modos (transferencia, bayesiano, AutoML, aprendizaje activo)

Las tres familias anteriores no lo dicen todo; varias ideas transversales completan la caja de herramientas. El aprendizaje por transferencia (transfer learning) consiste en reutilizar un modelo ya entrenado en una gran tarea como punto de partida de una tarea vecina, en lugar de empezar desde cero: es exactamente el principio del preentrenamiento y luego del ajuste de los grandes modelos (capítulo 3), y la razón por la que ya no se necesitan millones de ejemplos para cada nuevo problema. Los métodos bayesianos razonan en probabilidades: en lugar de una respuesta única, estiman una incertidumbre («70 % de probabilidades de que...»), valiosa cuando equivocarse cuesta caro (medicina, finanzas). El AutoML (y la búsqueda automática de arquitecturas) automatiza el diseño mismo de los modelos, dejando que la máquina busque los mejores ajustes. Por último, el aprendizaje activo (active learning) deja que el modelo elija los ejemplos que quiere ver etiquetados, para aprender rápido con un mínimo de costosas anotaciones humanas. Otras tantas variaciones sobre una misma pregunta: ¿cómo aprender mejor, con menos datos y esfuerzo?

Bajo el capó

Los grandes algoritmos del aprendizaje por refuerzo

El aprendizaje por refuerzo (arriba) se declina en varias familias de algoritmos cuyos nombres reaparecen sin cesar. El Q-learning aprende, para cada situación, el valor esperado de cada acción posible (la «Q»), y luego elige la que más promete; acoplado a una red neuronal, dio lugar a la Deep Q-Network, que aprendió a jugar a los juegos de Atari a partir únicamente de los píxeles. Los métodos de gradiente de política (entre ellos el más utilizado, PPO, Proximal Policy Optimization) optimizan directamente la estrategia del agente, mediante pasos pequeños y prudentes para evitar desviaciones bruscas; es precisamente el algoritmo en el corazón del RLHF de los grandes modelos (capítulo 3). Por último, la búsqueda en árbol Monte Carlo (MCTS) explora un árbol de jugadas posibles simulando numerosas partidas para estimar las mejores ramas; combinada con redes neuronales, es la clave del éxito de AlphaGo (capítulo 1). Detrás de la idea general de «aprender por ensayo y error» se ocultan, pues, herramientas matemáticas precisas, que reaparecen tanto en los juegos como en la robótica (capítulo 13) y en la alineación de los modelos.

2.3La neurona artificial y las redes

Esquema2.3. Una red neuronal «profunda». La información circula de izquierda a derecha, de capa en capa. «Profundo» (deep) significa simplemente: que comporta numerosas capas ocultas. De ahí viene el término deep learning (aprendizaje profundo).

Bajo el capó

Matemáticamente, una neurona calcula una suma ponderada de sus entradas, a la que añade un término de ajuste (el «sesgo»), y luego pasa el resultado por una función de activación no lineal (por ejemplo la función ReLU, que reemplaza todo número negativo por cero). Esta no linealidad es crucial: sin ella, apilar capas no serviría de nada (la composición de funciones lineales sigue siendo lineal). Los pesos y los sesgos son los parámetros de la red: son ellos los que el aprendizaje va a ajustar. Cuando se dice que un modelo tiene «70 000 millones de parámetros», se habla del número de esos ajustes internos. Un resultado teórico, el teorema de aproximación universal, garantiza que una red suficientemente grande puede aproximar cualquier función continua: es la promesa matemática que sustenta toda la empresa.

2.4Cómo aprende una máquina: coste y retropropagación

A fuerza de repetir, el error disminuye y la red se vuelve competente. La imagen más elocuente es la de una caminata en la niebla para bajar a un valle: no se ve el fondo, pero se siente la pendiente bajo los pies, y se da un paso hacia abajo. Repitiendo, se acaba por alcanzar un punto bajo. Esta «pendiente», en matemáticas, se llama el gradiente, y el método se llama el descenso de gradiente.

Esquema2.4. El bucle de aprendizaje. Repetido miles de millones de veces sobre inmensos conjuntos de datos, transforma una red aleatoria en un modelo competente.

Bajo el capó

Bajar la pendiente (gradiente y tasa de aprendizaje)

¿Cómo se hace concretamente el «ajuste» de los pesos? Mediante el descenso de gradiente, cuya imagen es elocuente: imagine el error del modelo como un paisaje de colinas y valles, donde se busca el punto más bajo (el error mínimo). En cada etapa, el gradiente indica la dirección de la pendiente más pronunciada; entonces se da un pequeño paso hacia abajo, y se vuelve a empezar. El tamaño de ese paso es un ajuste decisivo, la tasa de aprendizaje: demasiado grande, se rebota de una ladera a otra sin posarse jamás; demasiado pequeño, el descenso es interminable. En la práctica, no se calcula el error sobre todos los datos a la vez (demasiado costoso), sino sobre pequeños lotes sacados al azar (mini-batch), de ahí el nombre de descenso de gradiente estocástico; un recorrido completo sobre los datos se llama una época. Optimizadores perfeccionados (como Adam) adaptan automáticamente el paso para cada parámetro, acelerando y estabilizando el descenso. Es este proceso, repetido miles de millones de veces, el que esculpe poco a poco una red aleatoria hasta convertirla en un modelo competente.

En contexto

El sobreajuste, o el arte de no recitar de memoria

Una trampa acecha a todo aprendizaje automático: el sobreajuste (overfitting). Un modelo demasiado ajustado a sus datos de entrenamiento acaba por «recitarlos de memoria», ruido y errores incluidos, en lugar de extraer de ellos regularidades útiles; entonces destaca en los ejemplos vistos, pero fracasa ante casos nuevos. Es lo contrario del objetivo buscado: la generalización, es decir, la capacidad de comportarse bien con datos jamás encontrados. Para medirla, se reserva sistemáticamente una parte de los datos (un conjunto de test) que el modelo no ve durante el entrenamiento. En el extremo opuesto, un modelo demasiado simple infraajusta: pasa por alto regularidades que sin embargo están presentes. Encontrar el equilibrio adecuado es el arte central de la disciplina (se habla de compromiso sesgo-varianza), y para ello se dispone de técnicas de regularización que frenan la complejidad del modelo para impedirle pegarse demasiado a los datos. Esta preocupación por la generalización cobrará un relieve particular en el caso de los grandes modelos, de los que cabe preguntarse si comprenden o memorizan (capítulos 4 y 23).

En contexto

El olvido catastrófico y el aprendizaje continuo

Una limitación profunda de las redes neuronales esclarece una rareza de las IA actuales: su saber está congelado en una fecha. Cuando se entrena una red en una nueva tarea, el ajuste de los pesos (arriba) tiende a borrar lo que había aprendido antes: es el olvido catastrófico (catastrophic forgetting). Un humano integra una información nueva sin borrar el resto; una red, en cambio, corre el riesgo de reaprenderlo todo por encima. Consecuencia práctica: no se pueden simplemente «añadir» sobre la marcha los acontecimientos recientes a un gran modelo ya entrenado; habría que reentrenarlo, operación costosa, de ahí la fecha de corte de los conocimientos que se observa en los asistentes. Lograr que una IA aprenda de forma continua sin olvidarlo todo es precisamente el objeto del aprendizaje continuo (continual learning), dominio de investigación activo pero no resuelto. Mientras tanto, se sortea el obstáculo de otro modo: proporcionar al modelo información fresca en el momento de responder (la generación aumentada por recuperación, capítulo 6) en lugar de grabarla en sus pesos.

2.52012: el big bang del deep learning

¿Por qué 2012 y no antes? Porque los tres combustibles que faltaban (capítulo 1) por fin se reúnen:

Los datos: ImageNet proporciona el gigantesco conjunto de imágenes etiquetadas que faltaba.
El cómputo: AlexNet se entrena sobre GPU de la empresa NVIDIA. Estos chips, concebidos para calcular en paralelo los píxeles de los videojuegos, resultan ideales para las multiplicaciones masivas de las redes neuronales. Este detalle técnico tendrá consecuencias geopolíticas colosales: convertirá a NVIDIA en una de las empresas más valoradas del mundo (capítulo 8).
Los algoritmos: ciertos refinamientos (función de activación ReLU, técnica de regularización dropout) permiten entrenar redes más profundas sin que se descarrilen.

2.6Ver y leer: CNN y RNN

En pocas palabras

Antes del Transformer, dominan dos tipos de arquitecturas especializadas.

Las redes neuronales convolucionales (en inglés Convolutional Neural Networks, CNN) son las campeonas de la imagen. Su principio imita la visión: unos «detectores» se deslizan sobre la imagen para localizar primero motivos simples (bordes, esquinas), luego los combinan en motivos cada vez más complejos (ojos, ruedas), hasta reconocer el objeto entero (rostro, coche). Es la tecnología detrás del reconocimiento facial y del análisis de imágenes médicas.
Las redes neuronales recurrentes (en inglés Recurrent Neural Networks, RNN, y su perfeccionamiento, las LSTM) están concebidas para las secuencias: texto, habla, series temporales. Procesan las palabras una a una, conservando una «memoria» de lo que precede.

En contexto

Las redes neuronales de grafos (GNN)

Junto a las CNN (para las imágenes) y las RNN (para las secuencias), una tercera familia trata los datos en forma de red: las redes neuronales de grafos (Graph Neural Networks, GNN). Muchos objetos del mundo son naturalmente grafos, entidades relacionadas entre sí: una molécula (átomos unidos por enlaces), una red social (personas unidas por amistades), una red de carreteras, la propia web. Una GNN aprende haciendo circular información entre vecinos: cada nodo actualiza su representación agregando las de sus vecinos, de cerca en cerca. Esto permite predecir propiedades (¿será una molécula un buen medicamento?, capítulo 14), recomendar (productos, contactos) o detectar fraudes en una red de transacciones. Es la arquitectura predilecta allí donde la estructura relacional cuenta tanto como los datos mismos, allí donde una CNN o un Transformer clásico estarían mal adaptados.

2.7Representar el sentido: las incrustaciones (embeddings)

El truco genial: se aprenden estos números de tal modo que las palabras de sentido próximo ocupen posiciones próximas en el espacio. «Gato» y «perro» acaban siendo vecinos; «rey» y «plátano» quedan alejados. El sentido se vuelve geometría.

Más impresionante aún: las direcciones del espacio capturan relaciones. El ejemplo que se ha vuelto célebre (procedente del modelo word2vec, 2013) es casi mágico:

rey − hombre + mujer ≈ reina

Dicho de otro modo, el vector que une «hombre» con «rey» es más o menos el mismo que el que une «mujer» con «reina». La máquina ha descubierto, ella sola y sin que se le dijera, el concepto abstracto de realeza y el de género, simplemente observando cómo se emplean las palabras en miles de millones de frases.

Bajo el capó

El principio subyacente es la hipótesis distribucional, resumida por el lingüista J.R. Firth en 1957: «se reconoce una palabra por la compañía que frecuenta». Al entrenar un modelo para predecir el contexto de una palabra (o una palabra a partir de su contexto), se le obliga a colocar en regiones vecinas las palabras que aparecen en contextos similares. Los LLM modernos generalizan masivamente esta idea: ya no incrustan únicamente palabras aisladas, sino fragmentos de palabras en función de todo su contexto, lo que les permite distinguir los múltiples sentidos de una misma palabra («la libra esterlina» frente a «una libra de mantequilla»). Las incrustaciones son también el combustible de tecnologías omnipresentes en 2026: motores de búsqueda semánticos, sistemas de recomendación y la célebre generación aumentada por recuperación (RAG) que permite a un LLM nutrirse de una base documental (volveremos sobre ello en los capítulos 6 y 9).

Esquema2.5. Un fragmento de grafo de conocimiento. El saber es ahí explícito y verificable: cada hecho es una relación con nombre entre dos entidades, legible tanto por una máquina como por un humano.

Es la forma moderna de la representación simbólica del conocimiento (capítulo 1), y es lo que estructura entre bastidores numerosos motores de búsqueda (sus recuadros de respuesta). Su fuerza es la precisión y la trazabilidad (se sabe de dónde viene cada hecho); su debilidad, que hay que construirlo y mantenerlo a mano. De ahí el interés creciente por los enfoques neurosimbólicos, que casan la flexibilidad de las redes neuronales y el rigor de los grafos: un LLM puede consultar un grafo de conocimiento para anclar sus respuestas en hechos verificados (una variante estructurada de la generación aumentada por recuperación, capítulo 6) y reducir así sus alucinaciones.

2.8Los tres ingredientes de la IA moderna

Esquema2.6. La tríada fundamental. Ninguno de los tres basta por sí solo. Es su conjunción, a partir de la década de 2010, la que ha hecho posible la IA moderna, y es la carrera por estos tres recursos la que estructura hoy la economía y la geopolítica del sector.

Esta tríada esclarece todo el resto del curso:

La búsqueda de datos plantea las cuestiones de propiedad intelectual y de privacidad (capítulos 21 y 25).
La búsqueda de cómputo explica la valoración de NVIDIA, la guerra de los chips y la factura energética (capítulos 8 y 10).
La búsqueda de algoritmos es el objeto de la competición encarnizada entre laboratorios (capítulo 7), y su próximo gran salto, el Transformer, es el tema del capítulo siguiente.

2.9El cerebro y la máquina: una analogía fecunda y engañosa

Bajo el capó

El contraste es, ante todo, una cuestión de escala y de naturaleza. El cerebro humano cuenta con unos 86 000 millones de neuronas y del orden de cien billones de conexiones (sinapsis), todo ello cabiendo en un volumen reducido y consumiendo solo unos 20 vatios, es decir, menos que una bombilla. Un gran modelo, en cambio, puede alinear cientos de miles de millones de parámetros, pero su entrenamiento y su funcionamiento reclaman megavatios (capítulos 8 y 10): para una tarea dada, lo vivo conserva una eficiencia energética sin rival. Sobre todo, el parecido se detiene en la superficie. Varias diferencias son profundas:

La señal. Una neurona biológica se comunica mediante impulsos eléctricos breves (los «potenciales de acción»), discretos y asíncronos, modulados por una química compleja (decenas de neurotransmisores). La neurona artificial, en cambio, intercambia números continuos sincronizados, sin ninguna química. La familia de las redes de impulsos (computación neuromórfica, capítulo 8) busca precisamente acercarse al modelo biológico, pero sigue siendo marginal.
El aprendizaje. Las redes artificiales aprenden mediante retropropagación del gradiente (sección 2.4), un mecanismo global que supone propagar un error en sentido inverso por toda la red. Ahora bien, nada parecido se ha observado claramente en el cerebro: el aprendizaje biológico parece sobre todo local (las sinapsis se refuerzan según la actividad conjunta de las neuronas que conectan, principio resumido por la fórmula «lo que se activa junto, se enlaza junto»), e implica el sueño, la emoción y la recompensa. Cómo logra el cerebro un aprendizaje tan eficaz sin retropropagación sigue siendo una pregunta abierta.
La plasticidad y el tiempo. El cerebro es plástico: se recablea permanentemente, olvida, consolida y aprende a menudo de un solo ejemplo. Un modelo, una vez entrenado, está en gran medida congelado; exige innumerables ejemplos y sufre del olvido catastrófico (borra lo antiguo cuando se le enseña lo nuevo). El cerebro es además recurrente y encarnado (sin cesar en bucle con un cuerpo y un entorno), mientras que la mayoría de las redes procesan la información de una sola vez, de la entrada hacia la salida.

Para recordar (capítulo 2)

El aprendizaje automático invierte la programación clásica: ya no se suministran las reglas, se suministran ejemplos, y la máquina aprende las reglas. El resultado se llama un modelo.
Tres familias: aprendizaje supervisado (con solucionario), no supervisado (sin solucionario), por refuerzo (ensayo-error).
Una red neuronal apila neuronas artificiales en capas; «profundo» significa «de numerosas capas» (deep learning).
El aprendizaje se hace mediante descenso de gradiente y retropropagación: se mide el error, y luego se corrige cada peso un pequeño paso para reducirlo.
2012 (AlexNet/ImageNet) marca el big bang del deep learning, hecho posible por la conjunción datos + GPU + algoritmos.
Las incrustaciones (embeddings) transforman el sentido en geometría: es el puente conceptual hacia los grandes modelos de lenguaje.
Toda IA moderna reposa sobre una tríada: datos, cómputo, algoritmos.

Henos aquí listos para franquear el umbral. En el capítulo 3 narramos la innovación de 2017 que hizo saltar los cerrojos del lenguaje y dio nacimiento a la era de los grandes modelos: el Transformer.

2.1El cambio de paradigma: programar o aprender#

2.2Tres maneras de aprender#

2.3La neurona artificial y las redes#

2.4Cómo aprende una máquina: coste y retropropagación#

2.52012: el big bang del deep learning#

2.6Ver y leer: CNN y RNN#

2.7Representar el sentido: las incrustaciones (embeddings)#

2.8Los tres ingredientes de la IA moderna#

2.9El cerebro y la máquina: una analogía fecunda y engañosa#

Para recordar (capítulo 2)

2.1El cambio de paradigma: programar o aprender

2.2Tres maneras de aprender

2.3La neurona artificial y las redes

2.4Cómo aprende una máquina: coste y retropropagación

2.52012: el big bang del deep learning

2.6Ver y leer: CNN y RNN

2.7Representar el sentido: las incrustaciones (embeddings)

2.8Los tres ingredientes de la IA moderna

2.9El cerebro y la máquina: una analogía fecunda y engañosa