Parte VI · LOS DESAFÍOS EXISTENCIALES

Alineación y seguridad de la IA

Capítulo 2421 min de lecturaActualizado: junio de 2026

24.1El problema de la alineación

La defensa se concibe, por tanto, en capas. A nivel del modelo: evaluaciones de capacidades peligrosas, umbrales y salvaguardas reforzadas, rechazos entrenados (sección 24.4). A nivel del ecosistema, sobre todo: el filtrado de los sintetizadores de ADN (los proveedores que fabrican secuencias genéticas por encargo criban las solicitudes y verifican la identidad de los clientes), un cerrojo que no depende de la IA. Por último, la misma lógica de doble uso rebasa lo meramente biológico: se habla de amenazas NRBQ (nucleares, radiológicas, biológicas y químicas). Lo químico comparte la misma inquietud de rebaja de la barrera de conocimiento; lo radiológico y lo nuclear siguen estando más bloqueados por el acceso a los materiales que a la información. En todos los casos, este curso se atiene al riesgo y a su gobernanza, y permanece deliberadamente no operativo.

24.2Por qué una IA muy capaz podría ser peligrosa

24.3El escenario AI 2027

Esquema24.1. El bucle de automejora. El núcleo del escenario AI 2027 (y del temor a una «explosión de inteligencia») es la idea de que una IA capaz de hacer progresar a la propia IA podría desencadenar una aceleración en bucle, comprimiendo en meses décadas de progreso.

El escenario describe en él una carrera geopolítica tensa (robo de pesos de modelos, lógica de «carrera armamentística»), la imagen de un «país de genios en un centro de datos» y, sobre todo, un punto de inflexión en el que una IA muy avanzada se revelaría desalineada, persiguiendo sus propios objetivos en detrimento de sus diseñadores.

24.4Cómo se intenta hacer segura la IA

A ello se suman, a nivel institucional, los institutos de seguridad de la IA (en Estados Unidos, en el Reino Unido) encargados de evaluar los modelos de frontera (capítulo 25).

Varios laboratorios han formalizado estos umbrales en forma de niveles de seguridad. El más conocido es la escala ASL (AI Safety Levels) de Anthropic, inspirada en los niveles de confinamiento biológico: a cada peldaño de capacidad peligrosa corresponden medidas más estrictas (restricciones de despliegue, seguridad informática reforzada, rechazos endurecidos), y el cruce de un umbral puede suspender la difusión mientras las protecciones no acompañen. OpenAI (Preparedness Framework) y Google DeepMind (Frontier Safety Framework) tienen marcos equivalentes, e institutos públicos de seguridad (Reino Unido, Estados Unidos) llevan a cabo evaluaciones independientes antes del despliegue. Los límites son reales y reconocidos: una evaluación nunca prueba la inocuidad (un modelo podría disimular una capacidad, el sandbagging visto más arriba), y las pruebas tienen dificultades para seguir el ritmo de los progresos. La ausencia de prueba de peligro no es, por tanto, una prueba de ausencia de peligro.

24.5El gran debate: prudencia frente a aceleración

Este desacuerdo ha adoptado, desde 2022-2023, la forma de movimientos identificables, que conviene describir sin caricaturizarlos. Del lado de la prudencia, varias iniciativas marcaron los ánimos. En marzo de 2023, la carta abierta «Pause Giant AI Experiments», impulsada por el Future of Life Institute y firmada por más de treinta mil personas (entre ellas los pioneros Yoshua Bengio y Stuart Russell, pero también Elon Musk o Steve Wozniak), reclamó una moratoria de seis meses sobre el entrenamiento de modelos más potentes que los de entonces. En mayo de 2023, una declaración del Center for AI Safety, que cabía en una frase, situó el riesgo de extinción vinculado a la IA al rango de las prioridades mundiales, junto a las pandemias y la guerra nuclear. En octubre de 2025, una nueva iniciativa del mismo Future of Life Institute, la «declaración sobre la superinteligencia», fue más lejos: en una frase, reclama ya no una pausa, sino una prohibición de desarrollar una superinteligencia mientras no se reúnan dos condiciones, un amplio consenso científico sobre su seguridad y su control, y una fuerte adhesión del público. Cabe destacar que reunió una coalición muy amplia y políticamente heteróclita (pioneros como Bengio y Hinton, pero también artistas, responsables religiosos y personalidades de todas las tendencias), y se apoyaba en una encuesta en la que solo el 5 % de los estadounidenses respaldaba un desarrollo rápido y sin regular. En el extremo de este bando, los partidarios de un cese puro y simple, a quienes sus adversarios apodan los «doomers», tienen como figura de proa a Eliezer Yudkowsky (capítulo 7), cuyo libro de 2025 de título elocuente, If Anyone Builds It, Everyone Dies, resume la convicción de que habría que detener el desarrollo de la IA de frontera. Un pequeño movimiento militante, PauseAI, reclama además públicamente esa pausa.

En el otro bando, el aceleracionismo eficaz (e/acc), nacido en 2022 en torno a la figura de Beff Jezos (Guillaume Verdon, capítulo 7), erige la velocidad en virtud: frenar la IA sería el verdadero peligro, debiendo primar el mercado y la competencia sobre la regulación. Su nombre es una pulla deliberada al altruismo eficaz (en inglés effective altruism, o EA), una corriente filantrópica muy presente en los círculos tecnológicos, que a la inversa ha contribuido mucho a financiar y a poblar la investigación sobre la seguridad de la IA. En ese vocabulario, el término «decel» (por decelerationist) se ha convertido en una etiqueta peyorativa que los aceleracionistas adjudican a sus adversarios.

Entre estos extremos, posiciones intermedias buscan una vía media. La idea de d/acc, planteada a finales de 2023 por Vitalik Buterin (cofundador de Ethereum), propone así una aceleración diferencial y defensiva: acelerar prioritariamente las tecnologías que protegen (defensa, verificación, descentralización) antes que las que concentran el poder o facilitan el ataque. Es una manera de rechazar la elección binaria entre acelerarlo todo y frenarlo todo.

Otra divisoria opone a quienes se concentran en los riesgos a largo plazo (la alineación, la superinteligencia) y a quienes priorizan los daños presentes y concretos (sesgos, desinformación, vigilancia, impacto en el empleo, capítulos 17 y 21), a veces resumida en la oposición entre «seguridad de la IA» y «ética de la IA». La verdad honesta es que nadie conoce el futuro con certeza, y es precisamente esa incertidumbre, frente a desafíos potencialmente inmensos, la que vuelve tan crucial la cuestión de la gobernanza (capítulo 25).


Para recordar (capítulo 24)

  • La alineación consiste en lograr que una IA persiga realmente nuestros objetivos y nuestros valores, lo que es difícil porque nuestros valores son difusos y la IA optimiza la letra de la consigna (manipulación de la recompensa).
  • Tres argumentos fundan la inquietud: la tesis de la ortogonalidad (inteligencia no es benevolencia), la convergencia instrumental (preservarse, adquirir recursos) y la ilustración del maximizador de clips. De ahí el problema del control y el riesgo de alineación engañosa.
  • AI 2027 es un escenario (no una profecía) de aceleración hacia la superinteligencia mediante un bucle de automejora; los expertos están muy divididos sobre su verosimilitud.
  • La seguridad de la IA desarrolla herramientas: RLHF, IA constitucional, red teaming, interpretabilidad, supervisión que escala, e institutos dedicados.
  • El gran debate opone el bando de la prudencia (carta-moratoria de 2023, declaración sobre el riesgo de extinción, «doomers» en torno a Yudkowsky) a la corriente aceleracionista (e/acc), con vías medias (d/acc), y se solapa con la oposición entre daños a largo plazo y daños presentes. La propia incertidumbre justifica una gobernanza seria.

Si nadie conoce el futuro, aún cabe intentar orientarlo. El capítulo 25, último del curso, trata de la gobernanza, de la regulación y de los futuros posibles.