Google défie les GPU Nvidia Blackwell avec les derniers TPU Trillium

Les TPU Trillium de Google : une nouvelle ère dans l’accélération de l’IA

Il y a dix ans, Google s’est lancé dans la création d’accélérateurs d’IA personnalisés appelés Tensor Processing Units (TPU). Début 2023, le géant de la technologie a dévoilé sa sixième génération de TPU, baptisée Trillium, qui établit de nouvelles références en termes de performances et d’efficacité, surpassant les modèles précédents. Aujourd’hui, Google a annoncé que les TPU Trillium sont désormais universellement accessibles aux clients de Google Cloud, révélant simultanément que ces puissants TPU ont joué un rôle déterminant dans la formation de son dernier modèle, Gemini 2.0.

Pénétrer dans l’écosystème des développeurs d’IA

Les GPU de Nvidia sont devenus un choix dominant parmi les développeurs d’IA, non seulement en raison de leur matériel exceptionnel, mais aussi en raison de leur support logiciel robuste. Pour susciter un enthousiasme similaire pour les TPU Trillium, Google a apporté des améliorations significatives à son framework logiciel. Cela comprend des optimisations du compilateur XLA ainsi que des frameworks d’IA populaires tels que JAX, PyTorch et TensorFlow, permettant aux développeurs de maximiser la rentabilité de la formation, du réglage et du déploiement de l’IA.

Principales améliorations apportées aux TPU Trillium

Les TPU Trillium offrent une gamme d’améliorations substantielles par rapport à la génération précédente, notamment :

Performances d’entraînement augmentées de plus de 4x

Débit d’inférence amélioré jusqu’à 3x

L’efficacité énergétique a augmenté de 67 %

Les performances de calcul maximales par puce ont été multipliées par 4,7

Capacité de mémoire à large bande passante (HBM) doublée

La bande passante d’Interchip Interconnect (ICI) a également doublé

Capacité à déployer 100 000 puces Trillium dans une structure de réseau Jupiter unifiée

Les performances de formation par dollar ont été améliorées jusqu’à 2,5 fois et les performances d’inférence jusqu’à 1,4 fois

Évolutivité et disponibilité

Google a signalé que les TPU Trillium peuvent atteindre une efficacité de mise à l’échelle impressionnante de 99 % avec une configuration de 12 pods composés de 3 072 puces et une efficacité de 94 % sur 24 pods utilisant 6 144 puces, ce qui les rend adaptés à la pré-formation de grands modèles comme GPT-3 175 milliards de paramètres.

Actuellement, Trillium est disponible pour un déploiement dans des régions clés, notamment l’Amérique du Nord (États-Unis Est), l’Europe (Ouest) et l’Asie (Nord-Est). Pour les utilisateurs intéressés par une évaluation, le coût démarre à 2,7000 USD par heure de puce. De plus, les engagements à plus long terme offrent des tarifs réduits de 1,8900 USD par heure de puce pour un an et de 1,2200 USD par heure de puce pour un engagement de trois ans.

Conclusion

Avec son évolutivité et ses capacités logicielles améliorées, Trillium représente une avancée substantielle dans la stratégie d’infrastructure d’IA cloud de Google, le positionnant comme un concurrent redoutable sur le marché en évolution des accélérateurs d’IA.

Source et images