Parte I · FUNDAMENTOS: COMPRENDER LA IA ANTES DE LOS LLM

Aprender de los datos: machine learning y deep learning

Capítulo 222 min de lecturaActualizado: junio de 2026

2.1El cambio de paradigma: programar o aprender

El aprendizaje automático (en inglés machine learning) invierte la lógica. Ya no se le suministran las reglas: se le suministran ejemplos (miles de correos ya etiquetados como «spam» o «no spam»), y es la máquina la que descubre por sí misma las reglas que permiten distinguirlos. Ya no se programa el qué hacer; se programa el cómo aprender.

Esquema2.1. La inversión fundamental. La máquina ya no recibe las reglas: las aprende a partir de ejemplos. El producto de ese aprendizaje se llama un modelo.

2.2Tres maneras de aprender

El aprendizaje automático se declina en tres grandes familias, que conviene distinguir bien porque reaparecen por todas partes en lo que sigue.

Esquema2.2. Las tres grandes familias de aprendizaje.

2.3La neurona artificial y las redes

Esquema2.3. Una red neuronal «profunda». La información circula de izquierda a derecha, de capa en capa. «Profundo» (deep) significa simplemente: que comporta numerosas capas ocultas. De ahí viene el término deep learning (aprendizaje profundo).

2.4Cómo aprende una máquina: coste y retropropagación

A fuerza de repetir, el error disminuye y la red se vuelve competente. La imagen más elocuente es la de una caminata en la niebla para bajar a un valle: no se ve el fondo, pero se siente la pendiente bajo los pies, y se da un paso hacia abajo. Repitiendo, se acaba por alcanzar un punto bajo. Esta «pendiente», en matemáticas, se llama el gradiente, y el método se llama el descenso de gradiente.

Esquema2.4. El bucle de aprendizaje. Repetido miles de millones de veces sobre inmensos conjuntos de datos, transforma una red aleatoria en un modelo competente.

2.52012: el big bang del deep learning

¿Por qué 2012 y no antes? Porque los tres combustibles que faltaban (capítulo 1) por fin se reúnen:

  • Los datos: ImageNet proporciona el gigantesco conjunto de imágenes etiquetadas que faltaba.
  • El cómputo: AlexNet se entrena sobre GPU de la empresa NVIDIA. Estos chips, concebidos para calcular en paralelo los píxeles de los videojuegos, resultan ideales para las multiplicaciones masivas de las redes neuronales. Este detalle técnico tendrá consecuencias geopolíticas colosales: convertirá a NVIDIA en una de las empresas más valoradas del mundo (capítulo 8).
  • Los algoritmos: ciertos refinamientos (función de activación ReLU, técnica de regularización dropout) permiten entrenar redes más profundas sin que se descarrilen.

2.6Ver y leer: CNN y RNN

2.7Representar el sentido: las incrustaciones (embeddings)

El truco genial: se aprenden estos números de tal modo que las palabras de sentido próximo ocupen posiciones próximas en el espacio. «Gato» y «perro» acaban siendo vecinos; «rey» y «plátano» quedan alejados. El sentido se vuelve geometría.

Más impresionante aún: las direcciones del espacio capturan relaciones. El ejemplo que se ha vuelto célebre (procedente del modelo word2vec, 2013) es casi mágico:

rey − hombre + mujer ≈ reina

Dicho de otro modo, el vector que une «hombre» con «rey» es más o menos el mismo que el que une «mujer» con «reina». La máquina ha descubierto, ella sola y sin que se le dijera, el concepto abstracto de realeza y el de género, simplemente observando cómo se emplean las palabras en miles de millones de frases.

Esquema2.5. Un fragmento de grafo de conocimiento. El saber es ahí explícito y verificable: cada hecho es una relación con nombre entre dos entidades, legible tanto por una máquina como por un humano.

Es la forma moderna de la representación simbólica del conocimiento (capítulo 1), y es lo que estructura entre bastidores numerosos motores de búsqueda (sus recuadros de respuesta). Su fuerza es la precisión y la trazabilidad (se sabe de dónde viene cada hecho); su debilidad, que hay que construirlo y mantenerlo a mano. De ahí el interés creciente por los enfoques neurosimbólicos, que casan la flexibilidad de las redes neuronales y el rigor de los grafos: un LLM puede consultar un grafo de conocimiento para anclar sus respuestas en hechos verificados (una variante estructurada de la generación aumentada por recuperación, capítulo 6) y reducir así sus alucinaciones.

2.8Los tres ingredientes de la IA moderna

Esquema2.6. La tríada fundamental. Ninguno de los tres basta por sí solo. Es su conjunción, a partir de la década de 2010, la que ha hecho posible la IA moderna, y es la carrera por estos tres recursos la que estructura hoy la economía y la geopolítica del sector.

Esta tríada esclarece todo el resto del curso:

  • La búsqueda de datos plantea las cuestiones de propiedad intelectual y de privacidad (capítulos 21 y 25).
  • La búsqueda de cómputo explica la valoración de NVIDIA, la guerra de los chips y la factura energética (capítulos 8 y 10).
  • La búsqueda de algoritmos es el objeto de la competición encarnizada entre laboratorios (capítulo 7), y su próximo gran salto, el Transformer, es el tema del capítulo siguiente.

2.9El cerebro y la máquina: una analogía fecunda y engañosa


Para recordar (capítulo 2)

  • El aprendizaje automático invierte la programación clásica: ya no se suministran las reglas, se suministran ejemplos, y la máquina aprende las reglas. El resultado se llama un modelo.
  • Tres familias: aprendizaje supervisado (con solucionario), no supervisado (sin solucionario), por refuerzo (ensayo-error).
  • Una red neuronal apila neuronas artificiales en capas; «profundo» significa «de numerosas capas» (deep learning).
  • El aprendizaje se hace mediante descenso de gradiente y retropropagación: se mide el error, y luego se corrige cada peso un pequeño paso para reducirlo.
  • 2012 (AlexNet/ImageNet) marca el big bang del deep learning, hecho posible por la conjunción datos + GPU + algoritmos.
  • Las incrustaciones (embeddings) transforman el sentido en geometría: es el puente conceptual hacia los grandes modelos de lenguaje.
  • Toda IA moderna reposa sobre una tríada: datos, cómputo, algoritmos.

Henos aquí listos para franquear el umbral. En el capítulo 3 narramos la innovación de 2017 que hizo saltar los cerrojos del lenguaje y dio nacimiento a la era de los grandes modelos: el Transformer.