Partie VI · Les enjeux existentiels

Alignement et sécurité de l'IA

Chapitre 2414 min de lectureMis à jour : juin 2026

24.1Le problème de l'alignement

24.2Pourquoi une IA très capable pourrait être dangereuse

24.3Le scénario AI 2027

Schéma24.1. La boucle d'auto-amélioration. Le cœur du scénario AI 2027 (et de la crainte d'une « explosion d'intelligence ») est l'idée qu'une IA capable de faire progresser l'IA elle-même pourrait déclencher une accélération en boucle, comprimant en mois des décennies de progrès.

Le scénario y décrit une course géopolitique tendue (vol de poids de modèles, logique de « course aux armements »), l'image d'un « pays de génies dans un datacenter », et surtout un point de bascule où une IA très avancée se révélerait désalignée, poursuivant ses propres objectifs au détriment de ses concepteurs.

24.4Comment on essaie de rendre l'IA sûre

À cela s'ajoutent, au niveau institutionnel, des instituts de sécurité de l'IA (aux États-Unis, au Royaume-Uni) chargés d'évaluer les modèles de frontière (chapitre 25).

24.5Le grand débat : prudence contre accélération

Ce désaccord a pris, depuis 2022-2023, la forme de mouvements identifiables, qu'il faut décrire sans les caricaturer. Du côté de la prudence, plusieurs initiatives ont marqué les esprits. En mars 2023, la lettre ouverte « Pause Giant AI Experiments », portée par le Future of Life Institute et signée par plus de trente mille personnes (dont les pionniers Yoshua Bengio et Stuart Russell, mais aussi Elon Musk ou Steve Wozniak), a réclamé un moratoire de six mois sur l'entraînement des modèles plus puissants que ceux d'alors. En mai 2023, une déclaration du Center for AI Safety, tenant en une phrase, a placé le risque d'extinction lié à l'IA au rang des priorités mondiales, aux côtés des pandémies et de la guerre nucléaire. En octobre 2025, une nouvelle initiative du même Future of Life Institute, la « déclaration sur la superintelligence », est allée plus loin : en une phrase, elle réclame non plus une pause, mais une interdiction de développer une superintelligence tant que deux conditions ne sont pas réunies, un large consensus scientifique sur sa sûreté et son contrôle, et une adhésion forte du public. Fait notable, elle a rassemblé une coalition très large et politiquement hétéroclite (des pionniers comme Bengio et Hinton, mais aussi des artistes, des responsables religieux et des personnalités de tous bords), et s'appuyait sur un sondage où seuls 5 % des Américains soutenaient un développement rapide et non régulé. À l'extrême de ce camp, les tenants d'un arrêt pur et simple, que leurs adversaires surnomment les « doomers », ont pour figure de proue Eliezer Yudkowsky (chapitre 7), dont le livre de 2025 au titre éloquent, If Anyone Builds It, Everyone Dies, résume la conviction qu'il faudrait stopper le développement de l'IA de frontière. Un petit mouvement militant, PauseAI, en réclame d'ailleurs publiquement la pause.

À l'autre bord, l'accélérationnisme efficace (e/acc), né en 2022 autour de la figure de Beff Jezos (Guillaume Verdon, chapitre 7), érige la vitesse en vertu : freiner l'IA serait le vrai danger, le marché et la concurrence devant primer sur la régulation. Son nom est une pique délibérée à l'altruisme efficace (en anglais effective altruism, ou EA), un courant philanthropique très présent dans les milieux technologiques, qui a inversement beaucoup contribué à financer et à peupler la recherche sur la sécurité de l'IA. Dans ce vocabulaire, le terme « decel » (pour decelerationist) est devenu une étiquette péjorative que les accélérationnistes accolent à leurs adversaires.

Entre ces extrêmes, des positions intermédiaires cherchent une voie médiane. L'idée de d/acc, avancée fin 2023 par Vitalik Buterin (cofondateur d'Ethereum), propose ainsi une accélération différentielle et défensive : accélérer en priorité les technologies qui protègent (défense, vérification, décentralisation) plutôt que celles qui concentrent le pouvoir ou facilitent l'attaque. C'est une manière de refuser le choix binaire entre tout accélérer et tout freiner.

Un autre clivage oppose ceux qui se concentrent sur les risques de long terme (l'alignement, la superintelligence) et ceux qui privilégient les torts présents et concrets (biais, désinformation, surveillance, impact sur l'emploi, chapitres 17 et 21), parfois résumé par l'opposition entre « sécurité de l'IA » et « éthique de l'IA ». La vérité honnête est que personne ne connaît l'avenir avec certitude, et c'est précisément cette incertitude, face à des enjeux potentiellement immenses, qui rend la question de la gouvernance (chapitre 25) si cruciale.


À retenir (chapitre 24)

  • L'alignement consiste à faire en sorte qu'une IA poursuive réellement nos objectifs et nos valeurs, ce qui est difficile car nos valeurs sont floues et l'IA optimise la lettre de la consigne (détournement de récompense).
  • Trois arguments fondent l'inquiétude : la thèse d'orthogonalité (intelligence n'est pas bienveillance), la convergence instrumentale (se préserver, acquérir des ressources) et l'illustration du maximiseur de trombones. D'où le problème du contrôle et le risque d'alignement trompeur.
  • AI 2027 est un scénario (non une prophétie) d'accélération vers la superintelligence via une boucle d'auto-amélioration ; les experts sont très divisés sur sa vraisemblance.
  • La sécurité de l'IA développe des outils : RLHF, IA constitutionnelle, red teaming, interprétabilité, supervision passant à l'échelle, et des instituts dédiés.
  • Le grand débat oppose le camp de la prudence (lettre-moratoire de 2023, déclaration sur le risque d'extinction, « doomers » autour de Yudkowsky) au courant accélérationniste (e/acc), avec des voies médianes (d/acc), et recoupe l'opposition entre torts de long terme et torts présents. L'incertitude même justifie une gouvernance sérieuse.

Si nul ne connaît l'avenir, encore faut-il tenter de l'orienter. Le chapitre 25, dernier du cours, traite de la gouvernance, de la régulation et des futurs possibles.