Le nerf de la guerre : calcul, puces et datacenters

8.1Pourquoi l'IA dévore du calcul

8.2GPU, TPU et puces spécialisées

Sa domination ne tient pas qu'au silicium : elle repose aussi sur CUDA, la couche logicielle que tout l'écosystème de l'IA utilise pour programmer ses puces, un « fossé » concurrentiel difficile à franchir. Au CES de janvier 2026, NVIDIA a détaillé sa nouvelle génération Vera Rubin (succédant à l'architecture Blackwell) : chaque GPU Rubin délivre environ 50 pétaFLOP en précision FP4, embarque de la mémoire ultrarapide HBM4, et s'assemble dans des armoires « NVL72 » réunissant 72 GPU et 36 processeurs Vera. La génération suivante, « Feynman », est déjà annoncée.

Repère

Le vrai goulot, mémoire et réseau

Contre l'intuition, la puissance brute de calcul n'est plus toujours le facteur limitant. Deux autres murs comptent autant. La mémoire d'abord : un GPU passe souvent plus de temps à attendre des données qu'à calculer, c'est le « mur de la mémoire », et la course à la mémoire ultrarapide (HBM) est aussi stratégique que celle des transistors. Le réseau ensuite : entraîner un modèle sur des dizaines de milliers de GPU suppose de les faire dialoguer à très haut débit, via des interconnexions spécialisées (NVLink à l'intérieur d'une armoire, InfiniBand ou Ethernet entre les armoires). À cette échelle, une part importante de l'investissement et de l'efficacité se joue dans la plomberie qui relie les puces, au point que l'on décrit un datacenter entier comme un seul « ordinateur géant ».

Repère

Les concurrents de NVIDIA sur l'inférence

Le quasi-monopole de NVIDIA (section 8.3) n'empêche pas l'émergence de challengers qui parient sur une architecture différente, optimisée non pour l'entraînement mais pour l'inférence (faire tourner un modèle déjà entraîné, le plus vite et le moins cher possible). Groq a conçu une puce spécialisée (qu'elle nomme LPU, pour Language Processing Unit) misant sur une latence très faible pour générer le texte quasi instantanément. Cerebras prend le contre-pied de la miniaturisation avec une puce géante à l'échelle de la galette de silicium entière (wafer-scale), grande comme une assiette, pour éviter les lenteurs de communication entre puces. SambaNova propose une architecture reconfigurable vendue clé en main aux entreprises. Ces acteurs restent marginaux face à NVIDIA pour l'entraînement, mais l'explosion de l'inférence (section 8.1), portée par les modèles de raisonnement et les agents, leur ouvre un créneau réel, aux côtés des puces maison des géants du cloud (les TPU de Google, Trainium d'Amazon).

Repère

La loi de Moore et la course à la miniaturisation

Pendant un demi-siècle, le progrès des puces a suivi la loi de Moore : le nombre de transistors par puce doublait environ tous les deux ans, à coût constant, en les gravant toujours plus petits. C'est le sens des « nanomètres » (la finesse de gravure : 5 nm, 3 nm, 2 nm) ; plus le chiffre est petit, plus on entasse de transistors, donc de puissance, sur une même surface. Mais ce rythme ralentit : à l'échelle de quelques atomes, la physique (fuites de courant, chaleur, coût astronomique des usines) rend chaque gain plus difficile et plus cher. D'où un double déplacement. D'une part, on ne mise plus seulement sur la finesse, mais sur des puces spécialisées (GPU, TPU, accélérateurs) et sur l'assemblage avancé (empiler et relier plusieurs morceaux de silicium, section suivante). D'autre part, l'essentiel des gains vient désormais autant du logiciel et de l'architecture que du transistor lui-même. La miniaturisation n'est pas morte, mais elle a cessé d'être le moteur unique du progrès.

Repère

Les puces neuromorphiques et les réseaux à impulsions

Au-delà des GPU et TPU, une voie de recherche s'inspire directement du cerveau : le calcul neuromorphique. Plutôt que de séparer mémoire et calcul (l'architecture classique dite de von Neumann, dont la navette permanente entre les deux est un goulot d'étranglement), ces puces les rapprochent, à l'image des neurones biologiques. Elles s'appuient souvent sur des réseaux de neurones à impulsions (spiking neural networks) : au lieu de calculer en continu, les neurones n'émettent un signal que lorsqu'ils sont activés, comme dans le cerveau, ce qui promet une consommation d'énergie radicalement plus faible. Des prototypes existent (chez de grands fabricants et des laboratoires), mais la technologie reste émergente : elle se heurte à la difficulté de programmer et d'entraîner ces puces avec les méthodes habituelles. Son intérêt potentiel est immense pour l'IA embarquée (capteurs, objets connectés, robots) fonctionnant sur batterie, là où la sobriété prime sur la puissance brute. C'est l'un des paris matériels à long terme pour sortir du tout-GPU.

Repère

Au-delà du silicium classique (optique, analogique, reservoir)

Plusieurs paris matériels explorent des principes radicalement différents. Le calcul optique (ou photonique) remplace les électrons par des photons : la lumière traverse des composants qui réalisent certaines opérations (notamment les multiplications de matrices, omniprésentes dans les réseaux de neurones) à la vitesse de la lumière et avec très peu de chaleur ; des start-up y travaillent, mais l'intégration reste difficile. Le calcul analogique renonce au tout-numérique : au lieu de coder en 0 et 1, il laisse des grandeurs physiques continues (une tension, un courant) représenter directement les nombres et effectuer le calcul « par la physique », ce qui peut être très sobre en énergie, au prix d'une précision moindre. Le reservoir computing, enfin, est une astuce séduisante : on fige un grand réseau récurrent aléatoire (le « réservoir ») et l'on n'entraîne qu'une mince couche de lecture en sortie, ce qui rend l'apprentissage très bon marché ; mieux, le réservoir peut être un système physique quelconque (optique, voire hydraulique), ce qui rejoint les deux pistes précédentes. Aucune de ces voies ne menace le GPU à court terme, mais toutes rappellent que le calcul de l'IA n'est pas condamné à rester éternellement électronique et numérique.

8.3La chaîne de valeur des semi-conducteurs

Schéma8.1. La chaîne de valeur des puces IA. NVIDIA conçoit les GPU mais ne les fabrique pas (modèle « fabless ») : c'est le taïwanais TSMC qui les grave, à l'aide de machines que seul le néerlandais ASML sait produire. Chaque maillon est un point de passage obligé, donc un point de vulnérabilité.

ASML (Pays-Bas) détient un monopole mondial sur les machines de photolithographie à ultraviolets extrêmes (EUV), seules capables de graver les circuits les plus fins. Sans ASML, pas de puces de pointe.
TSMC (Taïwan) fabrique environ 90 % des puces les plus avancées au monde (gravées à 3 nanomètres et au-delà) et détient les deux tiers du marché mondial de la fonderie. Sa concentration géographique à Taïwan en fait un point névralgique de l'économie mondiale.
NVIDIA (États-Unis) conçoit les GPU mais ne les fabrique pas elle-même (modèle dit « fabless ») : elle confie leur gravure à TSMC.

Repère

La forme même du transistor (du FinFET au GAA)

Continuer à miniaturiser (section 8.2) a obligé à repenser la forme du transistor, l'interrupteur élémentaire de la puce. Pendant des décennies, les transistors étaient « plats » (planaires). Vers 2011, l'industrie est passée au FinFET, où le canal de courant se dresse comme une petite « ailette » (fin) que la grille enveloppe sur trois faces, pour mieux maîtriser les fuites de courant à très petite échelle. Aux nœuds les plus avancés (3 et 2 nanomètres), une nouvelle architecture prend le relais, le transistor à grille enrobante (Gate-All-Around, GAA, parfois dit « nanofeuilles ») : la grille entoure cette fois le canal sur les quatre faces, offrant un contrôle encore meilleur. Ces évolutions, invisibles pour l'utilisateur, sont ce qui permet à des fondeurs comme TSMC et Samsung de prolonger la loi de Moore alors que la simple réduction de taille atteint ses limites physiques. La course n'est donc plus seulement à la finesse, mais à l'ingéniosité géométrique.

8.4Les méga-datacenters

En clair

Cette demande de calcul se traduit par une frénésie de construction sans précédent. Les dépenses d'investissement (capex) cumulées des géants du cloud dépassent les 400 milliards de dollars par an en 2026, et les annonces de capacité se mesurent désormais en gigawatts (GW), l'unité des centrales électriques :

Stargate (porté par OpenAI, Oracle et SoftBank, soutenu par la Maison-Blanche) : un projet d'environ 500 milliards de dollars pour une vingtaine de centres totalisant 10 GW, soit l'équivalent d'une dizaine de réacteurs nucléaires.
Colossus (xAI, à Memphis) : sa deuxième tranche aligne quelque 110 000 GPU, alimentés en partie par des turbines à gaz installées à la hâte, de l'autre côté de la frontière de l'État, pour contourner certaines réglementations locales.
Hyperion (Meta) : un campus visant environ 5 GW.

À l'échelle mondiale, la puissance dédiée aux datacenters atteindrait environ 132 GW en 2026, et l'on estime qu'environ 10 GW de nouvelle capacité de calcul IA (soit 13 à 15 millions d'accélérateurs) seront ajoutés sur la seule année.

Repère

Le contrecoup grand public

Cette ruée a un revers très concret pour le consommateur. Parce que les accélérateurs d'IA sont bien plus lucratifs, NVIDIA et AMD réorientent leur production vers les data centers, reléguant les cartes graphiques de jeu vidéo au rang de marché secondaire : lancements repoussés (les séries RTX 50 SUPER de NVIDIA, l'architecture RDNA 5 d'AMD décalée), prix en forte hausse (parfois plus de 70 % au-dessus du tarif de lancement pour le haut de gamme) et disponibilité dégradée. En cause surtout, une pénurie mondiale de mémoire : happée par les serveurs d'IA (notamment la mémoire ultrarapide HBM), la mémoire vive (DRAM) a vu ses prix bondir d'environ 90 % au premier trimestre 2026 selon TrendForce, la plus forte hausse trimestrielle jamais enregistrée. Les analystes anticipent une hausse de 10 à 20 % des prix de l'électronique grand public en 2026 et une contraction du marché du PC. L'appétit des « usines à IA » se répercute ainsi jusque sur la facture du grand public, joueurs et acheteurs d'ordinateurs en tête (le cas des Mac est détaillé au chapitre 9).

8.5Géopolitique des puces

La séquence de 2025-2026 illustre une partie d'échecs mouvementée. Après l'abrogation, en 2025, du cadre réglementaire hérité de l'administration précédente (créant une période de moindre contrôle pendant laquelle des centaines de milliers de puces auraient transité par des pays tiers), l'administration américaine a resserré les règles fin mai 2026 : toute vente d'accélérateurs avancés (gammes Blackwell et Rubin de NVIDIA, MI350x d'AMD) à une filiale étrangère d'une entreprise chinoise nécessite désormais une licence. En parallèle, le feuilleton de la puce H200 (autorisée, puis bloquée tantôt par Washington, tantôt par Pékin qui pousse vers l'autosuffisance) a conduit NVIDIA à réaffecter ses capacités chez TSMC vers la nouvelle génération Vera Rubin. Plus récemment, mi-2026, la pression américaine s'est portée plus haut dans la chaîne, sur ASML elle-même, soupçonnée par Washington d'avoir laissé une machine de pointe parvenir en Chine.

À retenir (chapitre 8)

L'IA est d'abord une affaire de calcul : on entraîne les modèles sur des dizaines de milliers de GPU, et l'inférence (chaque requête) domine la facture sur la durée.
NVIDIA domine grâce à ses puces (génération Vera Rubin en 2026) et surtout à son logiciel CUDA ; Google (TPU), AMD et les géants du cloud développent des alternatives.
La chaîne de valeur est ultra-concentrée : ASML (machines EUV, Pays-Bas), TSMC (fabrication, Taïwan, ~90 % des puces de pointe), NVIDIA (conception, modèle « fabless »).
Les méga-datacenters se chiffrent en gigawatts (Stargate 10 GW, Colossus, Hyperion) ; le capex mondial dépasse 400 milliards de dollars par an.
La « guerre des puces » sino-américaine, fondée sur une « stratégie des points d'étranglement », fragmente le monde en deux blocs technologiques.

Face à cette dépendance à quelques géants et à leurs immenses datacenters, une alternative monte en puissance : faire tourner l'IA chez soi, avec des modèles ouverts. C'est l'objet du chapitre 9.

8.1Pourquoi l'IA dévore du calcul#

8.2GPU, TPU et puces spécialisées#

8.3La chaîne de valeur des semi-conducteurs#

8.4Les méga-datacenters#

8.5Géopolitique des puces#

À retenir (chapitre 8)

8.1Pourquoi l'IA dévore du calcul

8.2GPU, TPU et puces spécialisées

8.3La chaîne de valeur des semi-conducteurs

8.4Les méga-datacenters

8.5Géopolitique des puces