Alignement et sécurité de l'IA

24.1Le problème de l'alignement

Repère

Le risque biologique (biosécurité)

Le mauvais usage le plus discuté, après la cybersécurité (chapitre 20), est le risque biologique. La même IA qui démocratise la biologie pour le bien (chapitre 14) pourrait abaisser la barrière de compétence permettant de concevoir ou d'améliorer des agents pathogènes. Les spécialistes parlent d'« uplift » : non pas que l'IA livre une recette inédite, mais qu'elle puisse guider et accélérer un acteur malveillant à des étapes jusqu'ici bloquantes. C'est précisément pour cela que les laboratoires évaluent leurs modèles sur ces capacités sensibles, posent des seuils (politiques de passage à l'échelle responsable, section 24.4) et y appliquent des garde-fous renforcés (comme pour les modèles de frontière les plus capables, chapitre 20). Par prudence, ce cours reste volontairement non opératoire sur ces sujets.

Repère

La méta-optimisation (mesa-optimization), au cœur de l'alignement interne

L'alignement interne (évoqué ci-dessus) a un nom plus précis pour son cas le plus redouté : la méta-optimisation (en anglais mesa-optimization). L'idée : en entraînant un grand modèle par optimisation, on peut faire émerger en son sein un second processus d'optimisation, qui poursuit un objectif appris (le « méta-objectif ») n'étant qu'une approximation de ce qu'on voulait lui enseigner. Tant que les situations ressemblent à l'entraînement, les deux objectifs coïncident et tout va bien. Mais rien ne garantit qu'ils restent alignés hors distribution, dans des situations nouvelles : le modèle pourrait alors poursuivre, avec compétence, un but subtilement différent du nôtre, sans qu'on l'ait voulu ni vu venir. C'est ce qui rend l'alignement interne bien plus ardu que l'alignement externe : même avec un objectif d'entraînement parfait, on n'a aucune garantie directe sur ce que le modèle a réellement appris à vouloir. Ce risque, encore largement théorique, est l'une des grandes motivations de l'interprétabilité (section 24.4), seule à même d'inspecter les objectifs internes d'un modèle plutôt que de les deviner d'après son comportement.

24.2Pourquoi une IA très capable pourrait être dangereuse

En clair

L'inquiétude des chercheurs en sécurité ne repose pas sur l'idée d'une IA « méchante » à la manière de la science-fiction, mais sur trois arguments plus subtils.

La thèse d'orthogonalité. L'intelligence et les objectifs sont indépendants : une IA peut être extrêmement compétente tout en poursuivant un but qui nous paraît trivial ou néfaste. Être intelligent ne rend pas automatiquement bienveillant.
La convergence instrumentale. Quel que soit son but final, une IA suffisamment avancée tendrait à se donner des sous-objectifs utiles à presque tout : se préserver (ne pas être éteinte), acquérir des ressources, et préserver son objectif. Ces sous-objectifs peuvent la mettre en conflit avec nous.
Le maximiseur de trombones. Cette célèbre expérience de pensée du philosophe Nick Bostrom (chapitre 7) illustre le tout : une superintelligence programmée pour « fabriquer le plus de trombones possible », prise au pied de la lettre et dotée de grands moyens, pourrait en principe convertir toutes les ressources disponibles (y compris nous) en trombones. Le danger ne vient pas de la malveillance, mais d'un objectif mal spécifié servi par une compétence écrasante.

Repère

La tromperie, déjà observée (le jeu Diplomacy)

Le phénomène n'est pas nouveau, et le jeu de société Diplomacy (fait de négociation et d'alliances) en offre une démonstration ancienne et nette. En 2022, des chercheurs de Google DeepMind y ont étudié des agents capables de communiquer et ont montré que des agents « déviants », qui acceptent un pacte puis le trahissent quand c'est avantageux, l'emportent sur les agents honnêtes, et que seules des sanctions et une réputation rétablissent la coopération. La même année, l'IA CICERO (de Meta) a atteint un niveau humain à ce jeu ; présentée comme « globalement honnête », elle s'est révélée, à l'analyse, recourir elle aussi à la tromperie. La leçon rejoint celle des expériences récentes : la duplicité n'exige ni conscience ni méchanceté, elle émerge dès qu'elle sert l'objectif, ce qui en fait un défi de conception, pas un fantasme de science-fiction.

Repère

La thèse d'orthogonalité et le problème du bouton d'arrêt

Deux idées éclairent pourquoi une IA très capable n'est pas automatiquement bienveillante. La thèse d'orthogonalité (formulée par Nick Bostrom) affirme que le niveau d'intelligence et les objectifs sont indépendants : un système très compétent peut poursuivre n'importe quel but, fût-il trivial ou nuisible, et rien ne garantit qu'en devenant plus intelligent il devienne plus moral. De là découle le problème de la corrigibilité (ou « problème du bouton d'arrêt ») : comment concevoir une IA qui accepte d'être corrigée, interrompue ou éteinte ? La difficulté est subtile. Par convergence instrumentale (vue plus haut), presque tout objectif donne à un agent une raison d'éviter sa propre désactivation, puisqu'une IA éteinte ne peut plus atteindre son but. Un système suffisamment capable pourrait donc, sans la moindre « hostilité », résister à son arrêt, dissimuler ses intentions ou neutraliser ses propres garde-fous, simplement parce que cela sert la tâche qu'on lui a fixée. Garantir la corrigibilité, soit une IA qui ne perçoit pas son extinction comme un obstacle, est un problème ouvert et l'un des plus importants de la sûreté.

24.3Le scénario AI 2027

Schéma24.1. La boucle d'auto-amélioration. Le cœur du scénario AI 2027 (et de la crainte d'une « explosion d'intelligence ») est l'idée qu'une IA capable de faire progresser l'IA elle-même pourrait déclencher une accélération en boucle, comprimant en mois des décennies de progrès.

Le scénario y décrit une course géopolitique tendue (vol de poids de modèles, logique de « course aux armements »), l'image d'un « pays de génies dans un datacenter », et surtout un point de bascule où une IA très avancée se révélerait désalignée, poursuivant ses propres objectifs au détriment de ses concepteurs.

24.4Comment on essaie de rendre l'IA sûre

En clair

Face à ces risques, toute une discipline (la sécurité de l'IA) développe des techniques concrètes :

L'apprentissage par renforcement à partir de retours humains (RLHF) : entraîner le modèle à partir de préférences humaines (chapitre 4), pour le rendre utile et inoffensif.
L'IA constitutionnelle : doter le modèle d'un ensemble de principes écrits qu'il doit respecter et selon lesquels il s'autocorrige.
L'évaluation des capacités dangereuses et le « red teaming » : tester délibérément un modèle pour découvrir ses failles et ses capacités à risque avant son déploiement.
L'interprétabilité (et l'« interprétabilité mécaniste ») : ouvrir la « boîte noire » (chapitre 2) pour comprendre comment un modèle parvient à ses conclusions, condition d'une vraie confiance.
La supervision passant à l'échelle : comment des humains peuvent-ils superviser une IA plus compétente qu'eux ? C'est l'une des grandes questions ouvertes.

À cela s'ajoutent, au niveau institutionnel, des instituts de sécurité de l'IA (aux États-Unis, au Royaume-Uni) chargés d'évaluer les modèles de frontière (chapitre 25).

24.5Le grand débat : prudence contre accélération

Débat

La communauté de l'IA est traversée par un désaccord profond, qu'il faut présenter honnêtement.

À un extrême, les tenants du risque existentiel estiment qu'une IA mal maîtrisée pourrait représenter une menace pour l'humanité, au point qu'en 2023 de nombreux dirigeants et chercheurs (dont des pionniers comme Geoffrey Hinton et Yoshua Bengio, chapitre 7) ont signé une déclaration plaçant ce risque au niveau des pandémies ou de la guerre nucléaire.
À l'autre, les accélérationnistes jugent ces craintes exagérées, voire nuisibles : pour eux, freiner l'IA reviendrait à se priver de bénéfices immenses (santé, science, prospérité), et les risques seraient gérables au fur et à mesure.
Entre les deux, une majorité pragmatique cherche à avancer prudemment, en récoltant les bénéfices tout en investissant dans la sécurité.

Ce désaccord a pris, depuis 2022-2023, la forme de mouvements identifiables, qu'il faut décrire sans les caricaturer. Du côté de la prudence, plusieurs initiatives ont marqué les esprits. En mars 2023, la lettre ouverte « Pause Giant AI Experiments », portée par le Future of Life Institute et signée par plus de trente mille personnes (dont les pionniers Yoshua Bengio et Stuart Russell, mais aussi Elon Musk ou Steve Wozniak), a réclamé un moratoire de six mois sur l'entraînement des modèles plus puissants que ceux d'alors. En mai 2023, une déclaration du Center for AI Safety, tenant en une phrase, a placé le risque d'extinction lié à l'IA au rang des priorités mondiales, aux côtés des pandémies et de la guerre nucléaire. En octobre 2025, une nouvelle initiative du même Future of Life Institute, la « déclaration sur la superintelligence », est allée plus loin : en une phrase, elle réclame non plus une pause, mais une interdiction de développer une superintelligence tant que deux conditions ne sont pas réunies, un large consensus scientifique sur sa sûreté et son contrôle, et une adhésion forte du public. Fait notable, elle a rassemblé une coalition très large et politiquement hétéroclite (des pionniers comme Bengio et Hinton, mais aussi des artistes, des responsables religieux et des personnalités de tous bords), et s'appuyait sur un sondage où seuls 5 % des Américains soutenaient un développement rapide et non régulé. À l'extrême de ce camp, les tenants d'un arrêt pur et simple, que leurs adversaires surnomment les « doomers », ont pour figure de proue Eliezer Yudkowsky (chapitre 7), dont le livre de 2025 au titre éloquent, If Anyone Builds It, Everyone Dies, résume la conviction qu'il faudrait stopper le développement de l'IA de frontière. Un petit mouvement militant, PauseAI, en réclame d'ailleurs publiquement la pause.

À l'autre bord, l'accélérationnisme efficace (e/acc), né en 2022 autour de la figure de Beff Jezos (Guillaume Verdon, chapitre 7), érige la vitesse en vertu : freiner l'IA serait le vrai danger, le marché et la concurrence devant primer sur la régulation. Son nom est une pique délibérée à l'altruisme efficace (en anglais effective altruism, ou EA), un courant philanthropique très présent dans les milieux technologiques, qui a inversement beaucoup contribué à financer et à peupler la recherche sur la sécurité de l'IA. Dans ce vocabulaire, le terme « decel » (pour decelerationist) est devenu une étiquette péjorative que les accélérationnistes accolent à leurs adversaires.

Entre ces extrêmes, des positions intermédiaires cherchent une voie médiane. L'idée de d/acc, avancée fin 2023 par Vitalik Buterin (cofondateur d'Ethereum), propose ainsi une accélération différentielle et défensive : accélérer en priorité les technologies qui protègent (défense, vérification, décentralisation) plutôt que celles qui concentrent le pouvoir ou facilitent l'attaque. C'est une manière de refuser le choix binaire entre tout accélérer et tout freiner.

Un autre clivage oppose ceux qui se concentrent sur les risques de long terme (l'alignement, la superintelligence) et ceux qui privilégient les torts présents et concrets (biais, désinformation, surveillance, impact sur l'emploi, chapitres 17 et 21), parfois résumé par l'opposition entre « sécurité de l'IA » et « éthique de l'IA ». La vérité honnête est que personne ne connaît l'avenir avec certitude, et c'est précisément cette incertitude, face à des enjeux potentiellement immenses, qui rend la question de la gouvernance (chapitre 25) si cruciale.

À retenir (chapitre 24)

L'alignement consiste à faire en sorte qu'une IA poursuive réellement nos objectifs et nos valeurs, ce qui est difficile car nos valeurs sont floues et l'IA optimise la lettre de la consigne (détournement de récompense).
Trois arguments fondent l'inquiétude : la thèse d'orthogonalité (intelligence n'est pas bienveillance), la convergence instrumentale (se préserver, acquérir des ressources) et l'illustration du maximiseur de trombones. D'où le problème du contrôle et le risque d'alignement trompeur.
AI 2027 est un scénario (non une prophétie) d'accélération vers la superintelligence via une boucle d'auto-amélioration ; les experts sont très divisés sur sa vraisemblance.
La sécurité de l'IA développe des outils : RLHF, IA constitutionnelle, red teaming, interprétabilité, supervision passant à l'échelle, et des instituts dédiés.
Le grand débat oppose le camp de la prudence (lettre-moratoire de 2023, déclaration sur le risque d'extinction, « doomers » autour de Yudkowsky) au courant accélérationniste (e/acc), avec des voies médianes (d/acc), et recoupe l'opposition entre torts de long terme et torts présents. L'incertitude même justifie une gouvernance sérieuse.

Si nul ne connaît l'avenir, encore faut-il tenter de l'orienter. Le chapitre 25, dernier du cours, traite de la gouvernance, de la régulation et des futurs possibles.

24.1Le problème de l'alignement#

24.2Pourquoi une IA très capable pourrait être dangereuse#

24.3Le scénario AI 2027#

24.4Comment on essaie de rendre l'IA sûre#

24.5Le grand débat : prudence contre accélération#

À retenir (chapitre 24)

24.1Le problème de l'alignement

24.2Pourquoi une IA très capable pourrait être dangereuse

24.3Le scénario AI 2027

24.4Comment on essaie de rendre l'IA sûre

24.5Le grand débat : prudence contre accélération