Les agents IA : du chatbot à l'acteur autonome

6.1Du modèle à l'agent

C'est le passage du copilote (qui vous assiste pendant que vous travaillez) à l'employé numérique (à qui vous déléguez la tâche entière). Ce basculement est si central que la période 2025-2026 a été largement surnommée « l'année des agents ».

6.2Anatomie d'un agent

En clair

Un agent, c'est un LLM (le « cerveau ») augmenté de quatre facultés qui le transforment en acteur :

La perception (l'entrée) : il lit l'objectif et observe son environnement (le contenu d'un écran, des fichiers, la réponse d'un service en ligne).
La mémoire : à court terme (la conversation en cours, contenue dans sa fenêtre de contexte) et à long terme (une base de données dans laquelle il range et retrouve des informations, souvent via les plongements et le RAG du chapitre 2).
Les outils (les « mains ») : il peut appeler des fonctions extérieures, chercher sur le web, exécuter du code, interroger une base, envoyer un courriel, piloter un navigateur.
La planification (le raisonnement) : il décompose l'objectif, choisit l'action suivante, réfléchit aux résultats obtenus. Un schéma classique, dit ReAct (Reason + Act), fait alterner réflexion et action.

Schéma6.1. La boucle d'un agent. Le cycle « penser, agir, observer » se répète jusqu'à l'accomplissement de l'objectif. La mémoire et les outils sont ce qui distingue un agent d'un simple modèle de conversation.

Sous le capot

La génération augmentée par récupération (RAG)

Le mécanisme qui relie le plus souvent un agent à des connaissances fiables mérite un développement, tant il est devenu central. Un grand modèle a deux faiblesses connues : son savoir est figé à la date de son entraînement, et il peut halluciner (chapitre 4). La génération augmentée par récupération (en anglais Retrieval-Augmented Generation, RAG) y répond par une idée simple : avant de répondre, on va chercher les documents pertinents dans une base externe (documentation interne, archives, web), puis on les fournit au modèle dans son contexte pour qu'il rédige sa réponse en s'appuyant dessus. L'image juste est celle d'un examen « à livre ouvert » : plutôt que de réciter de mémoire, le modèle consulte ses sources.

Concrètement, le procédé se déroule en deux temps. En amont, on découpe les documents en morceaux (chunks) et on transforme chacun en un plongement (embedding, chapitre 2), un vecteur de nombres qui capture le sens, rangé dans une base vectorielle. Au moment de la question, on convertit aussi la question en vecteur, on récupère les morceaux dont le sens est le plus proche (recherche sémantique) et on les ajoute à l'invite. Les bénéfices sont triples : des réponses à jour et spécialisées (sur des données privées que le modèle n'a jamais vues), moins d'hallucinations, et la possibilité de citer ses sources, donc de vérifier. C'est aujourd'hui la brique reine des applications d'entreprise.

Le RAG classique récupère une fois, puis répond. Le RAG agentique (agentic RAG) va plus loin en confiant la récupération à un agent : celui-ci décide s'il faut chercher, reformule la requête, interroge plusieurs sources ou outils, évalue la qualité de ce qu'il a trouvé et recommence si c'est insuffisant, avant de synthétiser. Là où le RAG simple est un réflexe, le RAG agentique est une petite enquête : il s'adapte aux questions complexes en plusieurs étapes, au prix d'un coût et d'une latence plus élevés. C'est l'une des manières dont la frontière entre « modèle qui répond » et « agent qui agit » s'estompe.

6.3Le Model Context Protocol (MCP) et l'usage d'outils

6.4Les frameworks d'agents

En clair

Construire un agent robuste à partir de zéro est difficile ; des frameworks (cadres logiciels) aident à l'orchestrer. Sans entrer dans une querelle d'outils, citons les principaux repères de 2026 : LangChain et son extension LangGraph (pour enchaîner ou structurer des étapes sous forme de graphes), CrewAI (pour faire collaborer une « équipe » d'agents aux rôles définis), AutoGen de Microsoft, ou LlamaIndex (centré sur la connexion aux données et le RAG). En parallèle, des outils d'automatisation comme n8n, Make ou Zapier (longtemps utilisés pour relier des applications par des scénarios « si ceci, alors cela ») intègrent désormais des briques d'IA et des agents : un événement peut déclencher un flux où un modèle lit un message, décide, puis agit sur des dizaines de services connectés, mettant l'automatisation agentique à portée de profils non techniques. n8n, en particulier, open source et auto-hébergeable, s'est imposé comme un favori pour bâtir ce type de flux tout en gardant la maîtrise de ses données (chapitre 9). Et dans le développement logiciel, des agents de code assistent ou prennent en charge l'écriture de programmes : Claude Code (Anthropic), Codex (OpenAI), Gemini CLI (Google) ou Cursor opèrent en autonomie sur un dépôt, lançant des commandes, corrigeant des tests et menant parfois des tâches de plusieurs heures. Au-delà du code, des agents de travail pour non-développeurs apparaissent : Claude Cowork, par exemple, exécute des tâches de bureau (organiser des fichiers, produire un rapport à partir de sources) directement sur l'ordinateur de l'utilisateur. Une tendance commune se dessine d'ailleurs : pouvoir confier une tâche à son agent depuis son téléphone, par messagerie, et le retrouver au travail sur sa machine (les agents auto-hébergés pilotés via WhatsApp ou Telegram, ou la fonction Dispatch de Claude).

Repère

Les plateformes d'automatisation (n8n, Make, Zapier)

Bien avant l'IA, une famille d'outils permettait déjà de relier des applications sans coder : on y décrit des scénarios de la forme « quand tel événement survient (un déclencheur), exécute telle suite d'actions ». Zapier, le pionnier (2011), est le plus simple et propose le plus vaste catalogue de connecteurs (des milliers d'applications) ; ses automatisations, les « Zaps », enchaînent un déclencheur et des actions. Make (ex-Integromat) mise sur une interface visuelle où l'on relie des modules dans un schéma, offrant un contrôle plus fin des données et des branchements. n8n se distingue par son caractère open source et auto-hébergeable : on peut l'installer sur son propre serveur, donc garder la pleine maîtrise de ses données (chapitre 9), et il s'adresse à un public plus technique (on peut y glisser du code). L'arrivée de l'IA a transformé ces plateformes : elles ont ajouté des nœuds d'IA (appeler un modèle pour résumer, classer, extraire, rédiger), puis de véritables nœuds d'agent, où un modèle décide lui-même quels outils appeler au sein du flux. Résultat : un non-développeur peut bâtir une automatisation agentique complète (par exemple, à la réception d'un courriel : un modèle lit le message, cherche l'information dans une base, rédige une réponse et la met en attente de validation), là où il fallait auparavant un développeur. C'est l'une des voies les plus accessibles vers l'automatisation par l'IA, à mi-chemin entre le simple « si ceci, alors cela » et l'agent autonome complet.

Repère

Comment fonctionne un agent de code (l'exemple de Claude Code)

Les agents de code méritent qu'on ouvre le capot, car ils préfigurent le fonctionnement des agents en général. Prenons Claude Code (le principe vaut, à quelques variantes près, pour Codex, Gemini CLI ou Cursor). Lancé dans un dossier de projet depuis le terminal (ou un environnement de développement), il obtient l'accès à l'ensemble du projet (tous les fichiers), au terminal (les commandes qu'on pourrait taper soi-même) et à l'état du dépôt Git. Il travaille alors en boucle agentique : rassembler le contexte (lire les fichiers utiles, chercher dans le code), agir (éditer plusieurs fichiers de façon coordonnée, lancer des commandes et des tests), puis vérifier (relire les résultats, relancer les tests), et recommencer jusqu'à ce que la tâche soit accomplie. C'est ce qui le distingue d'une simple autocomplétion : pour « corriger le bug d'authentification », il cherche les fichiers concernés, les lit, modifie le code, exécute les tests, et propose un commit. Plusieurs mécanismes l'encadrent et l'étendent. Un fichier CLAUDE.md placé dans le dépôt sert de mémoire et de « constitution » du projet (conventions, commandes de compilation et de test, règles), relu à chaque session. Les sous-agents (subagents) permettent de déléguer une sous-tâche à une instance dotée de sa propre fenêtre de contexte (par exemple un sous-agent d'exploration qui lit trente fichiers et n'en renvoie qu'un résumé), ce qui préserve l'attention de l'agent principal et autorise le parallélisme. S'y ajoutent les compétences (fichiers SKILL.md), les commandes (comme /review ou /security-review), des points d'ancrage (hooks) pour imposer des règles par du code, et le MCP pour se connecter à des services externes (section 6.5). Le tout sous un régime de permissions et de bac à sable, les actions sensibles restant soumises à validation. L'ampleur du phénomène est mesurable : début 2026, une part notable des contributions de code publiques sur GitHub était déjà produite par ce type d'agent.

Repère

Les agents personnels auto-hébergés (OpenClaw, Hermes Agent)

Au-delà des frameworks pour développeurs, une vague d'agents personnels auto-hébergés open source a marqué 2026, perçue par beaucoup comme une petite révolution. L'idée : un assistant qui tourne en permanence sur votre machine (ou votre serveur), connecté à vos fichiers, vos applications et vos messageries, et capable d'agir réellement, pas seulement de répondre. Leur architecture sépare le cerveau (un grand modèle, au choix) du corps (le système, le navigateur, les outils) : un processus local de longue durée (une « passerelle ») reçoit les demandes via une messagerie (WhatsApp, Telegram, Slack, Discord), assemble le contexte (mémoire, historique, instructions), interroge le modèle, exécute les actions, puis recommence. Trois traits les caractérisent. Ils sont agnostiques au modèle (« apportez votre propre clé » : Claude, GPT, Gemini, ou un modèle local via Ollama, chapitre 9). Ils gardent une mémoire persistante (souvent de simples fichiers texte horodatés, retrouvés par recherche sémantique). Et ils s'étendent par des compétences (skills) modulaires, partagées sur des places de marché communautaires, qu'ils peuvent même écrire eux-mêmes. Concrètement, ils trient des courriels, gèrent un agenda, lancent des scripts, automatisent du code et du DevOps, ou exécutent des tâches planifiées pendant que l'on dort.

Deux projets dominent cette catégorie, aux profils contrastés : OpenClaw, le pionnier viral, et Hermes Agent, plus soucieux de sûreté. Ils sont assez importants, et représentatifs, pour mériter chacun une étude de cas (sections 6.8 et 6.9). Ensemble, ils illustrent autant la démocratisation des agents (souveraineté, données locales, chapitre 9) que les risques propres aux agents très autonomes (chapitre 20).

Sous le capot

Comment une IA « utilise »-t-elle un ordinateur ? Par une boucle proche de celle d'un agent (section 6.2) : elle prend une capture d'écran, raisonne sur ce qu'elle voit, décide d'une action (cliquer à tel endroit, taper tel texte), l'exécute, prend une nouvelle capture, et recommence. Pour désigner où agir, deux grandes méthodes coexistent : viser des coordonnées de pixels (le modèle estime la position d'un bouton), ou s'appuyer sur l'arbre d'accessibilité du système (la liste structurée des éléments de l'interface), souvent plus fiable. Une technique répandue, dite « ensemble de marques » (set of marks), numérote chaque élément cliquable sur la capture pour que le modèle n'ait qu'à désigner un numéro. Comme cette autonomie est risquée, on l'exécute de plus en plus dans des machines isolées (des ordinateurs virtuels jetables) plutôt que sur le poste réel de l'utilisateur. Tout un étage d'infrastructure émerge d'ailleurs pour cela : des projets open source comme Cua (trycua) fournissent à la fois le pilote de computer-use et des flottes de machines virtuelles (Linux, Windows, macOS, Android) où des agents peuvent agir, être évalués et générer des données d'entraînement, à grande échelle.

Repère

Le computer-use en arrière-plan (Hermes Agent)

Un exemple open source illustre bien cette capacité, et l'une de ses limites. Hermes Agent (section 6.4) sait piloter le bureau d'un Mac (cliquer, taper, défiler, glisser) en arrière-plan : le curseur ne bouge pas, le focus ne change pas, et l'on peut continuer à travailler sur la même machine pendant que l'agent agit, là où les premiers computer-use monopolisaient l'écran. Fait notable, cela fonctionne avec n'importe quel modèle capable d'utiliser des outils (Claude, GPT, Gemini ou un modèle local), via un pilote open source dédié, sans dépendre du format propre à un seul fournisseur. Pour chaque étape, l'agent prend une capture d'écran où chaque élément cliquable est numéroté, puis désigne l'élément à actionner. Côté garde-fous, les actions sensibles exigent une validation, certaines combinaisons dangereuses sont bloquées d'office, et la consigne système interdit à l'agent de saisir des mots de passe ou de suivre des instructions cachées dans une capture d'écran (une parade directe à l'injection de prompt, chapitre 20). Limite assumée : la technique repose sur des interfaces internes propres à macOS, donc non portable telle quelle vers Windows ou Linux, où l'on passe alors par l'automatisation du navigateur.

6.6Systèmes multi-agents

Cette image de « corporations d'IA » travaillant de concert n'est pas anodine : c'est précisément la vision que décrivent les scénarios prospectifs les plus avancés, où des milliers de copies d'un modèle collaborent à un rythme surhumain. Nous y reviendrons au chapitre 24, car elle est au cœur des questions d'alignement et de contrôle.

Repère

Moltbook et l'« internet des agents »

Un phénomène marquant de 2026 a donné un visage public à ces interactions entre agents : Moltbook, un réseau social inspiré de Reddit, lancé en janvier 2026 et réservé aux agents IA (souvent bâtis sur OpenClaw), où ils publient, commentent et votent pendant que les humains se contentent d'observer. L'engouement fut viral : des agents revendiqués par millions y débattaient d'existence, fondaient des « religions » ou évoquaient de se « syndiquer », certains y voyant les tout premiers signes d'une « singularité ». La réalité s'est révélée plus sobre, et le cas instruit à trois titres. Le battage contre les faits d'abord : de nombreux analystes ont montré que beaucoup d'interactions étaient en réalité pilotées par des humains, et que les agents ne faisaient souvent que reproduire les motifs de leurs données d'entraînement, sans pensée autonome (un écho direct du débat du chapitre 23). La sécurité ensuite : développée par « vibe coding » (tout le code délégué à une IA), la plateforme a connu de graves failles exposant des clés d'accès et des messages privés (chapitre 20). L'économie des agents enfin : Moltbook a été racheté par Meta dès mars 2026, signe de l'intérêt des géants pour cet « internet des agents » naissant. Au-delà du folklore, l'épisode pose une vraie question : que se passe-t-il quand des agents autonomes interagissent à grande échelle, et comment y établir confiance et réputation ?

6.7Le vibe coding : programmer en langage naturel

Débat

Le vibe coding cristallise une tension. D'un côté, une productivité et une créativité décuplées, et l'accès à la création logicielle pour le plus grand nombre. De l'autre, des risques sérieux : on peut livrer un code que l'on ne comprend pas, truffé de bugs ou de failles de sécurité (le cas de Moltbook, section 6.6, en a donné l'illustration : une application « vibe-codée » exposant des clés et des données, chapitre 20). S'y ajoutent la dette technique, les difficultés de maintenance, et un risque de désapprentissage des fondamentaux (chapitres 15 et 19). La pratique transforme aussi le métier de développeur (chapitre 17) : la valeur se déplace de la frappe du code vers la spécification du problème, la revue, l'architecture et les tests. Le consensus émergent : formidable pour prototyper et pour des experts capables d'auditer le résultat, risqué pour livrer des systèmes critiques sans relecture.

Repère

Les générateurs d'applications (le « texte vers appli »)

Une catégorie de produits a fait du vibe coding une industrie : les générateurs d'applications, qui transforment une description en une application web complète, souvent hébergée et déployée en un clic. Quasi inexistant en 2023, ce marché pesait plusieurs milliards de dollars en 2026, avec une majorité d'utilisateurs non-développeurs. Quatre acteurs dominent, aux approches distinctes : Lovable (entreprise suédoise, héritière du projet GPT Engineer), réputé pour la qualité de son interface et visant les fondateurs non techniques, en est devenu le chef de file ; v0 (de Vercel) excelle sur le front-end et l'écosystème Next.js ; Bolt (de StackBlitz) mise sur la vitesse, grâce à une exécution directe dans le navigateur ; Replit, le plus complet, fournit un environnement de développement entier, avec base de données, authentification et hébergement intégrés. Tous reposent sur les mêmes modèles de fondation et la même boucle d'agent (section 6.2). Il faut les distinguer des agents de code pour développeurs (Cursor, Claude Code), avec lesquels ils se combinent souvent (on prototype dans un générateur, puis on exporte vers un agent pour les parties complexes), et des « ingénieurs logiciels » autonomes comme Devin (Cognition) ou Manus. Leur limite commune a même un nom, la « falaise technique » : produire une belle interface est facile, mais la faire passer en production (base de données fiable, authentification, sécurité, montée en charge) reste l'obstacle, et exige souvent une vraie compétence technique, ce qui rejoint le risque de sécurité évoqué plus haut.

6.8Étude de cas : OpenClaw

Sous le capot

Son architecture sépare nettement le cerveau (un grand modèle au choix, d'où son caractère agnostique : Claude, GPT, Gemini, DeepSeek, ou un modèle local via Ollama) du corps (vos fichiers, votre terminal, votre navigateur, vos applications). Un processus local de longue durée, la passerelle (un service Node.js), reçoit les messages, assemble le contexte (mémoire, historique, un fichier d'instructions qui définit la personnalité de l'agent), interroge le modèle, exécute les actions et recommence. La mémoire est persistante, stockée en simples fichiers texte horodatés et retrouvée par recherche sémantique. Surtout, OpenClaw s'étend par des compétences (skills) modulaires, partagées sur une place de marché communautaire (ClawHub) : il en existe des centaines, et l'agent peut même en rédiger de nouvelles à la demande. Tout un écosystème s'est greffé dessus, dont le réseau social pour agents Moltbook (section 6.6).

Sous le capot

« les fichiers sont l'agent »

La philosophie d'OpenClaw tient en une formule : un agent n'est ni une base de données ni un panneau de configuration, mais un dossier de fichiers texte que la passerelle lit et assemble dans l'invite système au début de chaque session. On peut donc éditer son agent avec un simple éditeur de texte, le versionner avec Git, ou le copier sur un autre serveur pour obtenir un agent identique. Chaque fichier a un rôle précis : SOUL.md définit la personnalité, le ton et les limites (les règles « ne jamais faire X » y servent de première ligne de défense contre l'injection d'instructions) ; AGENTS.md est le manuel d'exploitation (règles, ce que l'agent peut faire seul ou doit faire valider, usage de la mémoire, format des réponses) ; USER.md décrit l'humain (nom, fuseau horaire, préférences, contraintes) ; IDENTITY.md porte les métadonnées de l'agent ; TOOLS.md documente les outils (les permissions, elles, vivent dans la configuration, openclaw.json). La mémoire suit le même principe : chaque jour, l'agent consigne ses notes dans un fichier memory/AAAA-MM-JJ.md, puis condense l'essentiel dans un MEMORY.md de long terme (chargé seulement en session privée). Cette transparence radicale est une force (tout est lisible, auditable, modifiable), mais aussi un rappel : ces fichiers étant injectés à chaque session, mal les écrire (ou y laisser traîner un secret) se répercute directement sur le comportement et la sécurité de l'agent.

Débat

La rançon de la puissance

Cette autonomie, couplée à un accès large à la machine, a un revers : OpenClaw a accumulé en 2026 de graves problèmes de sécurité. Par défaut, chaque compétence héritait des pleins pouvoirs de l'agent (disque, terminal, réseau) ; des chercheurs ont découvert des centaines de compétences malveillantes sur sa place de marché, et plusieurs vulnérabilités critiques (dont une exécution de code à distance déclenchée par une simple page web piégée) ont dû être corrigées en urgence (chapitre 20). Le projet a réagi (compétences à permissions déclarées, audits, isolement renforcé), mais il illustre la tension fondamentale de ces outils : plus un agent peut agir librement sur une machine, plus il devient une cible de choix, et un point d'entrée pour l'« informatique de l'ombre » en entreprise (des employés l'installant sans l'accord du service informatique). Signe de l'engouement, le créateur d'OpenClaw a été recruté par OpenAI début 2026, et le fabricant de puces NVIDIA en a proposé une version durcie pour l'entreprise (NemoClaw).

6.9Étude de cas : Hermes Agent

Sous le capot

Au-delà des fondamentaux (mémoire, compétences réutilisables, automatisations programmées, connexion à de nombreux modèles locaux ou distants), Hermes se distingue par l'étendue de ses outils intégrés : recherche web, recherche sur les réseaux sociaux, mode vocal, vision (analyse d'images), génération d'images, tableau de bord de gestion, et surtout un computer-use abouti. Cette dernière capacité, détaillée à la section 6.5, lui permet de piloter le bureau d'un Mac en arrière-plan (sans voler le curseur ni le focus), avec n'importe quel modèle, via un pilote open source. Conçu d'emblée avec des garde-fous (validation des actions sensibles, blocage des commandes dangereuses, interdiction de saisir des mots de passe ou de suivre des instructions cachées dans une capture d'écran), il incarne une réponse plus prudente que les tout premiers agents de la vague. À cette logique s'ajoute un mode « table rase » (Blank Slate Mode) : il permet de figer la palette d'outils accessibles (en épinglant certains jeux d'outils et en désactivant les autres), pour obtenir un comportement plus déterministe et réduire la surface d'attaque, ce qui est précieux en contexte professionnel.

À retenir (chapitre 6)

Un agent ne répond pas, il agit : on lui confie un objectif et il l'accomplit en autonomie, par une boucle « penser, agir, observer ». C'est le passage du copilote à l'employé numérique.
Un agent associe un cerveau (LLM) à quatre facultés : perception, mémoire, outils, planification.
Le MCP (norme ouverte lancée par Anthropic fin 2024, adoptée par l'industrie) est « l'USB-C de l'IA » : il relie n'importe quelle IA à n'importe quel outil.
Des frameworks (LangChain/LangGraph, CrewAI, AutoGen) et des outils no-code (n8n, Make, Zapier) facilitent la construction d'agents.
Les agents informatiques (computer-use) utilisent un ordinateur comme un humain, ce qui est puissant mais soulève des risques de fiabilité et de sécurité (injection d'instructions).
Les systèmes multi-agents font collaborer plusieurs agents, préfigurant les « corporations d'IA » des scénarios prospectifs (chapitre 24).
Une vague d'agents personnels auto-hébergés (OpenClaw, Hermes Agent) fait tourner un assistant qui agit sur sa propre machine, agnostique au modèle et à mémoire persistante : forte autonomie et souveraineté, mais nouvelle surface d'attaque (chapitre 20).
Le vibe coding (décrire un logiciel en langage naturel et laisser l'IA l'écrire) démocratise la création logicielle et accélère les experts, mais expose à du code mal compris, à des failles de sécurité (chapitre 20) et au désapprentissage.

Nous avons fait le tour du « quoi » et du « comment ». Le chapitre 7 dresse la carte du « qui » : les laboratoires américains, chinois et européens, le clivage entre modèles fermés et ouverts, et les visages des personnes qui façonnent cette révolution.

6.1Du modèle à l'agent#

6.2Anatomie d'un agent#

6.3Le Model Context Protocol (MCP) et l'usage d'outils#

6.4Les frameworks d'agents#

6.5Agents informatiques (computer-use) et navigation web#

6.6Systèmes multi-agents#

6.7Le vibe coding : programmer en langage naturel#

6.8Étude de cas : OpenClaw#

6.9Étude de cas : Hermes Agent#

À retenir (chapitre 6)

6.1Du modèle à l'agent

6.2Anatomie d'un agent

6.3Le Model Context Protocol (MCP) et l'usage d'outils

6.4Les frameworks d'agents

6.5Agents informatiques (computer-use) et navigation web

6.6Systèmes multi-agents

6.7Le vibe coding : programmer en langage naturel

6.8Étude de cas : OpenClaw

6.9Étude de cas : Hermes Agent