Google entre dans l’ère de l’IA agentique avec son hypercalculateur IA avancé intégrant des TPU de 8e génération, des processeurs NVIDIA Rubin et Axion.

Google a officiellement dévoilé son hypercalculateur IA révolutionnaire lors de l’événement Cloud Next 26, transformant le paysage de l’infrastructure d’intelligence artificielle (IA) grâce à l’intégration de puces TPUv8, de GPU NVIDIA Rubin et de CPU Axion. Cette annonce marque une étape importante dans l’avenir de l’IA autonome.

Google Cloud Next 26 : L’hypercalculateur IA révolutionne l’IA agentique grâce à une technologie de pointe

L’ère traditionnelle des supercalculateurs cède la place à un nouveau paradigme dominé par les hypercalculateurs, qui combinent diverses options de calcul pour créer des architectures d’IA adaptables et ultra-performantes. L’hypercalculateur d’IA de Google illustre cette évolution, offrant aux clients une flexibilité sans précédent pour répondre à leurs besoins de calcul.

Un diagramme intitulé « Hypercalculateur IA » comporte trois sections : « Consommation flexible » avec « Orchestration », « Gestion de clusters » et « Modèles de consommation » ; « Logiciels libres » avec « Frameworks » et « Moteurs d’inférence » ; et « Matériel dédié » avec « Calcul », « Stockage » et « Mise en réseau ».

Pour exploiter pleinement le potentiel de l’hypercalculateur IA, Google a développé une architecture optimisée pour la performance. Au cœur de cette architecture se trouvent les TPUv8 de dernière génération, les processeurs Axion Cloud innovants et les GPU NVIDIA Rubin de pointe. Parmi ces nouveautés, on note le lancement des TPU de 8e génération de Google, disponibles en deux modèles : TPU 8t et TPU 8i.

Modèle TPU 8t optimisé pour un entraînement amélioré

Le TPU 8t est conçu comme un processeur d’entraînement ultra-performant, réduisant considérablement le délai de déploiement des modèles de pointe de plusieurs mois à quelques semaines seulement. Il offre un débit de calcul de haut niveau, des capacités de mémoire partagée améliorées et une bande passante inter-puces impressionnante, le tout dans une conception écoénergétique. Principales caractéristiques du TPU 8t :

Capacités d’extension massives : un seul superpod TPU 8t peut intégrer jusqu’à 9 600 puces, accompagnées de deux pétaoctets de mémoire partagée à large bande passante, offrant ainsi une bande passante inter-puces deux fois supérieure à celle de son prédécesseur. Cette configuration fournit une puissance de calcul allant jusqu’à 121 exaFLOPS, permettant aux modèles complexes d’exploiter un vaste pool de mémoire.
Optimisation de l’utilisation : Grâce à une vitesse d’accès au stockage multipliée par 10, combinée à TPUDirect pour une récupération optimisée des données, le TPU 8t améliore l’utilisation du système dans son ensemble.
Évolutivité quasi linéaire : L’intégration du nouveau réseau Virgo et de logiciels avancés comme JAX permet à la TPU 8t de faciliter une évolutivité quasi linéaire pour les clusters logiques contenant jusqu’à un million de puces.

TPU 8i : une nouvelle référence en matière d’inférence

Le TPU 8i est conçu pour les tâches d’inférence et dispose d’une mémoire HBM impressionnante de 288 Go, associée à une mémoire SRAM intégrée de 384 Mo, soit trois fois plus que ses prédécesseurs. Cette architecture permet le fonctionnement continu des modèles entièrement sur la puce. Principales caractéristiques du TPU 8i :

Efficacité grâce à Axion : ce modèle double le nombre d’hôtes CPU physiques par serveur et tire parti de processeurs Axion personnalisés basés sur Arm utilisant une architecture de mémoire non uniforme (NUMA) pour des performances améliorées.
Optimisé pour les modèles Mixture of Experts (MoE) : le TPU 8i dispose d’une bande passante d’interconnexion (ICI) accrue de 19, 2 Tb/s et d’une architecture Boardfly qui réduit considérablement le diamètre du réseau, garantissant une fonctionnalité intégrée à faible latence.
Latence réduite : grâce au nouveau moteur d’accélération des collectifs (CAE) intégré, le TPU 8i réduit la latence sur la puce, améliorant considérablement les performances.

Deux puces Google Cloud TPU v8i sont affichées au premier plan sur un fond flou comportant plusieurs cartes de circuits imprimés.

Tableau comparatif des fonctionnalités

Fonctionnalité	TPU 8t	TPU 8i
Charge de travail principale	Pré-formation à grande échelle	Échantillonnage, service et justification
Topologie du réseau	tore 3D	Boardfly
Caractéristiques spécialisées de la puce	Moteur de décodage SparseCore (intégrations) et LLM	CAE (Moteur d’accélération collective)
Capacité HBM	216 Go	288 Go
SRAM sur puce (Vmem)	128 Mo	384 Mo
PFLOPS FP4 de pointe	12.6	10.1
Bande passante HBM	6, 528 Go/s	8 601 Go/s (environ 1, 3 fois la vitesse du TPU 8t)
Connecteur du processeur	Axion du bras	Axion du bras

Points forts de l’hypercalculateur IA

Voici les nombreux points forts de l’hypercalculateur IA de Google qui démontrent ses capacités novatrices :

Le TPU 8t est optimisé pour l’entraînement, utilisant l’interconnexion inter-puces (ICI) pour évoluer jusqu’à 9 600 TPU et 2 PB de mémoire partagée dans un seul superpod, atteignant trois fois la puissance de traitement de son prédécesseur avec une efficacité énergétique améliorée.
Le TPU 8i exploite la nouvelle topologie Boardfly pour la connexion directe de 1 152 TPU, disposant de trois fois plus de SRAM que les modèles précédents pour prendre en charge un stockage sur puce plus important et mettant en œuvre un CAE spécialisé pour des améliorations de performances.
Les GPU NVIDIA jouent un rôle crucial dans les accélérateurs d’IA proposés, Google étant parmi les premiers à introduire le NVIDIA Vera Rubin NVL72 en plus des modèles existants basés sur Hoover et Blackwell.
Google Cloud Axion propose des instances N4A Axion — lancées en janvier — offrant une amélioration de 100 % du rapport prix/performances par rapport aux instances x86 comparables.
L’architecture de calcul optimisée pour le réseau s’étend avec les nouvelles séries de machines C4N et M4N, conçues pour améliorer les applications gourmandes en réseau et offrant près de quatre fois la bande passante par vCPU des instances standard.
Parmi les innovations significatives en matière de stockage, citons les progrès réalisés dans Managed Lustre, capable d’atteindre un débit de 10 To par seconde pour un entraînement accéléré, ainsi que dans Rapid Storage, qui a connu des pics de performance passant de 6 To/s à 15 To/s, améliorant ainsi les charges de travail d’entraînement et d’inférence.
Les améliorations du réseau impliquent le réseau Virgo, une architecture optimisée conçue pour connecter les systèmes NVIDIA Vera Rubin NVL72 ou les superpods TPU 8t afin de former de vastes supercalculateurs qui améliorent l’entraînement distribué de modèles sophistiqués.

Parmi les clients importants de l’hypercalculateur d’IA de Google figurent de grandes entreprises comme le département de l’Énergie des États-Unis, Boston Dynamics, Citadel Securities, Thinking Machine Labs et Axia Energy.

Source et images