NVIDIA Rubin s’intègre à la machine virtuelle de Google, étendant les clusters multisites à près d’un million de GPU.

Dans le cadre d’une collaboration exceptionnelle, Google et NVIDIA unissent leurs forces pour offrir aux utilisateurs l’accès à un million de GPU NVIDIA. Cette initiative s’inscrit dans le cadre du lancement des nouvelles instances A5X, conçues pour réduire les coûts d’inférence et améliorer le débit de jetons. Le système A5X intègre les accélérateurs réseau avancés de NVIDIA, jetant ainsi les bases d’infrastructures de calcul robustes, mono et multi-clusters, spécialement conçues pour les charges de travail d’IA.

Présentation de l’instance A5X : conçue sur mesure pour l’IA agentive

L’instance A5X représente la dernière innovation de Google, conçue spécifiquement pour les charges de travail d’intelligence artificielle agentique. Elle fait partie du portefeuille d’hypercalculateurs IA en pleine expansion qui sous-tend la plateforme Gemini de Google, laquelle prend en charge diverses applications d’IA grand public et professionnelles. Cette nouvelle offre s’accompagne d’améliorations significatives apportées à l’hypercalculateur, avec des machines virtuelles spécialement conçues, alimentées par des processeurs Arm personnalisés, des processeurs Tensor de huitième génération, la prise en charge native des TPU PyTorch et, bien sûr, les instances A5X innovantes.

Conçues pour gérer les scénarios d’IA multi-agents, les instances A5X exploitent un ensemble d’agents d’IA, mettant en œuvre une méthodologie par morceaux pour résoudre des problèmes complexes.À noter que ces instances sont les premières de Google compatibles avec les GPU d’IA de pointe Vera Rubin de NVIDIA.

Une diapositive de présentation montrant le GPU Rubin et le LPU Groq 3 avec leurs spécifications, ainsi qu'une personne sur scène sous le titre « Unir des processeurs aux performances extrêmes ».

Google Virgo et ConnectX-9 : Mise à l’échelle de l’infrastructure d’IA

Les instances A5X exploiteront les capacités des cartes d’interface réseau (NIC) ConnectX-9 de NVIDIA, conçues pour optimiser les charges de travail d’IA dans les environnements cloud utilisant Ethernet. Cette synergie technologique, associée à la plateforme Virgo de Google, permettra aux utilisateurs de déployer jusqu’à 80 000 GPU Rubin au sein d’un seul cluster et un nombre impressionnant de 960 000 GPU répartis sur plusieurs sites.

Composant	Cluster de centre de données unique Max	Cluster multisite maximal
GPU NVIDIA Vera Rubin	80 000	960 000
TPU personnalisés de Google	134 000	Plus d’un million
Réseau dorsal	Cartes réseau NVIDIA ConnectX-9	Plateforme Google Virgo

Obtention d’un retour sur investissement : coûts d’inférence considérablement réduits et débit amélioré

La plateforme Google Virgo offre une connectivité sans précédent entre de nombreuses puces d’IA au sein d’un même centre de données. Cette infrastructure robuste fonctionne non seulement avec les GPU Vera Rubin de NVIDIA, mais s’intègre également parfaitement aux unités de traitement tensoriel (TPU) de Google. Virgo peut connecter jusqu’à 134 000 TPU dans un seul centre de données et plus d’un million de puces réparties sur plusieurs sites. De manière remarquable, NVIDIA affirme que les instances A5X permettent de réduire d’un facteur dix les coûts d’inférence par jeton tout en décuplant le débit par mégawatt, par rapport aux modèles précédents.

Par ailleurs, NVIDIA met en avant sa collaboration avec des leaders du secteur tels que Cadence et Siemens, démontrant comment leurs produits s’appuient sur cette infrastructure et sont accessibles via Google Cloud. De plus, la plateforme Gemini de Google est prête à déployer des modèles et des flux de travail multi-agents dans divers secteurs, notamment la cybersécurité.

Source et images

NVIDIA Rubin s’intègre à la machine virtuelle de Google, étendant les clusters multisites à près d’un million de GPU.

Présentation de l’instance A5X : conçue sur mesure pour l’IA agentive

Google Virgo et ConnectX-9 : Mise à l’échelle de l’infrastructure d’IA

Obtention d’un retour sur investissement : coûts d’inférence considérablement réduits et débit amélioré

Articles connexes:

Nouvelles fonctionnalités DX12 dans Microsoft Shader Model 6.10 et aperçu d'AgilitySDK 720 pour le rendu neuronal

Confirmation de la fuite d'informations concernant la manette Steam par Valve : date de sortie et prix ; aucune nouvelle concernant la Steam Machine, mais perspectives positives de la part de Valve

Laisser un commentaire Annuler la réponse