Duel de puces IA : NVIDIA fait face à une concurrence féroce de la part des TPU de Google, et pas seulement d’AMD ou d’Intel.

Duel de puces IA : NVIDIA fait face à une concurrence féroce de la part des TPU de Google, et pas seulement d’AMD ou d’Intel.

Dans le secteur de l’intelligence artificielle en pleine expansion, NVIDIA est confrontée à des défis sans précédent, non pas principalement de la part d’AMD ou d’Intel, mais de Google, un concurrent émergent qui réduit considérablement l’écart. Le PDG de NVIDIA, Jensen Huang, est parfaitement conscient de ce contexte concurrentiel.

À première vue, il peut paraître surprenant que Google soit à la pointe de la course au matériel d’IA. Pourtant, le géant technologique a préparé le terrain en lançant sa première puce d’IA personnalisée, la TPU (Tensor Processing Unit), dès 2016, bien avant ses concurrents. Récemment, Google a dévoilé sa dernière innovation, les TPU Ironwood de « 7e génération », une sortie qui a suscité un vif intérêt et préparé le terrain pour une confrontation décisive entre NVIDIA et Google. Cet article analyse les aspects essentiels qui expliquent l’importance de ce duel, en se concentrant notamment sur les avancées apportées par les TPU Ironwood de Google.

Les TPU Ironwood de Google : 192 Go de mémoire HBM et des performances considérablement améliorées

Les TPU Ironwood de Google se préparent à être déployés pour diverses charges de travail et devraient être disponibles prochainement. Commercialisée comme une puce « axée sur l’inférence », Ironwood, selon Google, inaugure une nouvelle ère en matière de performances d’inférence, améliorant l’efficacité du calcul à usage général. La TPU v7 (Ironwood) est conçue stratégiquement pour exceller dans la transition entre l’entraînement des modèles et l’inférence, une transition qui s’apprête à dominer le paysage technologique actuel. Voici quelques spécifications notables :

  • Performances maximales 10 fois supérieures à celles du TPU v5p.
  • Performances 4 fois supérieures par puce pour l’entraînement et l’inférence par rapport à TPU v6e (Trillium).
  • La puce sur mesure la plus puissante et la plus économe en énergie développée à ce jour par Google.

En analysant plus en détail les spécifications, on constate que la puce Ironwood dispose d’une mémoire HBM remarquable de 192 Go à 7, 4 To/s et peut atteindre une performance de pointe impressionnante de 4 614 TFLOPS par puce, soit près de 16 fois plus que la TPU v4. De plus, grâce à l’introduction du Superpod Ironwood TPU composé de 9 216 puces, Google est capable de fournir une puissance de calcul agrégée impressionnante de 42, 5 exaFLOPS pour les charges de travail FP8. Cette intégration met en lumière les solutions d’interconnexion innovantes de Google, qui surpassent NVLink de NVIDIA en termes d’évolutivité.

Une grande salle remplie de rangées de baies de serveurs reliées entre elles par un réseau complexe de nombreux câbles de couleurs différentes.
Le SuperPod Ironwood de Google

En privilégiant l’interconnexion, Google utilise l’InterChip Interconnect (ICI), un réseau robuste conçu pour l’évolutivité. Cette technologie permet de connecter 43 blocs (chacun contenant 64 puces) de Superpods sur un réseau de 1, 8 pétaoctet. Grâce à l’utilisation de cartes réseau pour les communications internes et d’une architecture en tore 3D pour les TPU, Google optimise l’interconnexion, améliorant ainsi l’évolutivité et la densité de puces – un domaine où il surpasse les solutions de NVIDIA.

Spécification Valeur
Puissance de calcul maximale par puce (FP8) ~ 4 614 TFLOPS
Capacité HBM par puce 192 Go HBM3e
Bande passante mémoire par puce ~ 7, 2 To/s
Taille maximale de la capsule (nombre de puces) 9 216 jetons
Puissance de calcul maximale par pod ~ 42, 5 exaFLOPS
Mémoire système par pod (HBM) ~ 1, 77 PB
Bande passante d’interconnexion inter-puces (ICI) ~ 1, 2 Tb/s par lien
Amélioration des performances ~ 16 fois plus rapide que le TPU v4

Les ambitions de Google en matière d’ASIC : une véritable menace pour la suprématie de NVIDIA en matière d’IA ?

Alors que nous examinons l’importance des TPU Ironwood à l’ère actuelle de l’inférence, il est crucial de reconnaître le rôle croissant des capacités d’inférence. Traditionnellement, l’entraînement des modèles dominait le paysage de l’IA, les solutions de calcul NVIDIA étant largement utilisées en raison de leurs performances supérieures dans les scénarios d’entraînement. Cependant, avec la prédominance des modèles grand public, les tâches d’inférence ont connu une croissance spectaculaire, dépassant souvent les besoins en entraînement.

Les performances d’inférence ne se résument pas à la simple puissance de calcul (TFLOPS) ; des facteurs tels que la latence, le débit, l’efficacité et le coût par requête deviennent de plus en plus cruciaux. L’analyse des solutions Ironwood de Google permet de comprendre pourquoi elles pourraient surpasser NVIDIA dans ce domaine. Par exemple, Ironwood dispose d’une mémoire embarquée conséquente, comparable à celle des GPU IA Blackwell B200 de NVIDIA. De plus, la capacité de clustering du SuperPod, avec ses 9 216 puces, accroît considérablement la capacité mémoire totale.

Gros plan sur une carte mère de serveur montrant les blocs de refroidissement métalliques, les dissipateurs thermiques et les tuyaux de refroidissement liquide.
Une carte Ironwood présentant trois TPU Ironwood connectés à un système de refroidissement liquide.

Une capacité de mémoire plus élevée est primordiale pour les opérations d’inférence, car elle minimise les délais de communication entre les puces et améliore la latence des modèles complexes, renforçant ainsi l’attrait d’Ironwood. Google a conçu Ironwood avec une grande précision pour un environnement à faible latence, tout en optimisant son efficacité énergétique — un aspect crucial de son succès attendu.

L’inférence à très grande échelle exige des milliers de puces capables de traiter efficacement et en continu les requêtes, ce qui fait des coûts de déploiement et d’exploitation une priorité pour les fournisseurs de services cloud (CSP), au détriment des performances brutes. Dans cette optique, Google a doublé l’efficacité énergétique grâce à Ironwood, rendant ainsi ses TPU plus rentables pour les applications d’inférence à grande échelle.

Le GPU NVIDIA Rubin CPX, conçu pour les environnements à grande échelle, présente des caractéristiques telles que 128 Go de mémoire GDDR7 et sera disponible fin 2026.
Image : NVIDIA Corporation

Le paradigme de la compétition en IA évolue : il ne s’agit plus seulement d’obtenir le plus grand nombre d’opérations par seconde (FLOPS), mais de se livrer à une bataille plus nuancée qui englobe la gestion des requêtes, la réduction de la latence, les coûts opérationnels et l’efficacité énergétique. Cette évolution offre à Google une nouvelle opportunité de s’implanter rapidement, en exploitant les faiblesses potentielles de la domination historique de NVIDIA dans le domaine de l’IA. Ironwood sera notamment disponible exclusivement via Google Cloud, ce qui pourrait favoriser la dépendance à cet écosystème et potentiellement fragiliser la position établie de NVIDIA. Les progrès constants des TPU de Google soulignent leur caractère compétitif et annoncent un changement qui devrait influencer la stratégie de NVIDIA.

Pour autant, NVIDIA ne reste pas inactive face à ce nouveau défi ; l’entreprise lance le Rubin CPX en réponse, avec l’ambition de se tailler une place de choix sur le marché grâce à des solutions optimisées à l’échelle du rack. Cependant, il apparaît de plus en plus évident que Google s’impose comme un concurrent redoutable pour NVIDIA, tandis qu’Intel et AMD accusent actuellement un retard en termes d’influence et d’innovation.

Dans un commentaire remarquable, Jensen Huang est revenu sur les capacités TPU de Google lors d’une interview précédente, reconnaissant la complexité et la compétitivité de leurs offres :

À ce propos… l’un des débats les plus importants… concerne la question des GPU contre les ASIC, les TPU de Google et le Trainium d’Amazon. Google… Ils ont lancé le TPU1 avant même que tout ne se mette en place… Le défi pour ceux qui conçoivent des ASIC.

TPU est sur TPU 7. Oui. Exactement. Et c’est aussi un défi pour eux. Exactement. Et donc, le travail qu’ils accomplissent est incroyablement difficile.

Source et images

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *