GPU NVIDIA Blackwell Ultra « GB300 » : la puce IA la plus rapide avec double réticule, plus de 20 000 cœurs, 288 Go de mémoire HBM3e à 8 To/s, 50 % plus rapide que le GB200

NVIDIA a dévoilé sa puce d’IA de pointe, la Blackwell Ultra GB300, bénéficiant d’une amélioration remarquable des performances de 50 % par rapport à son prédécesseur, le GB200, et d’une impressionnante mémoire de 288 Go.

Présentation du Blackwell Ultra « GB300 » de NVIDIA : une puce IA révolutionnaire

NVIDIA a récemment publié un article détaillé présentant les spécifications et les capacités du Blackwell Ultra GB300. Cette puce de pointe est désormais produite en série et fournie à une sélection de clients. Le Blackwell Ultra représente une amélioration significative des performances et des fonctionnalités par rapport aux précédents modèles Blackwell.

S’inspirant de la série Super de NVIDIA, qui améliorait les cartes gaming RTX originales, la série Ultra enrichit les précédentes offres de puces IA. Si les gammes précédentes, comme Hopper et Volta, manquaient de fonctionnalités Ultra, leurs avancées ont jeté les bases des innovations actuelles. De plus, des améliorations substantielles sont également disponibles pour les modèles non Ultra grâce à des mises à jour logicielles et des efforts d’optimisation.

Diagramme du GPU NVIDIA Blackwell Ultra montrant l'architecture détaillée et les spécifications de connectivité.

Le Blackwell Ultra GB300 est une itération avancée combinant deux matrices de la taille d’un réticule connectées par l’interface NV-HBI à large bande passante de NVIDIA, fonctionnant comme un GPU unifié. Basée sur la technologie de traitement 4NP de TSMC (une version optimisée de son nœud 5 nm), la puce abrite un nombre impressionnant de 208 milliards de transistors et offre des performances exceptionnelles avec une bande passante de 10 To/s entre les deux matrices.

Diagramme de l'architecture multiprocesseur NVIDIA Streaming avec cœurs CUDA et tenseurs.

Le GPU est équipé de 160 multiprocesseurs de streaming (SM), totalisant chacun 128 cœurs CUDA. Il inclut quatre cœurs Tensor de 5e génération, prenant en charge les calculs de précision FP8, FP6 et NVFP4. Cette conception permet d’obtenir un total combiné de 20 480 cœurs CUDA et 640 cœurs Tensor, ainsi que 40 Mo de mémoire Tensor (TMEM).

Fonctionnalité	Trémie	Blackwell	Blackwell Ultra
Processus de fabrication	TSMC 4N	TSMC 4NP	TSMC 4NP
Transistors	80B	208B	208B
Matrices par GPU	1	2	2
NVFP4 dense \| performances éparses	–	10 \| 20 pétaflops	15 \| 20 pétaflops
Performance dense \| performance clairsemée du FP8	2 \| 4 pétaflops	5 \| 10 pétaflops	5 \| 10 pétaflops
Accélération de l’attention (SFU EX2)	4, 5 téraexponentielles/s	5 téraexponentielles/s	10, 7 téraexponentiels/s
Capacité maximale HBM	80 Go HBM (H100) 141 Go HBM3E (H200)	192 Go HBM3E	288 Go HBM3E
Bande passante HBM maximale	3, 35 To/s (H100) 4, 8 To/s (H200)	8 To/s	8 To/s
Bande passante NVLink	900 Go/s	1 800 Go/s	1 800 Go/s
Puissance maximale (TGP)	Jusqu’à 700 W	Jusqu’à 1 200 W	Jusqu’à 1 400 W

Les innovations des cœurs Tensor de 5e génération sont essentielles aux calculs d’IA. NVIDIA a constamment amélioré ces cœurs, ce qui a permis :

NVIDIA Volta : introduction des unités MMA à 8 threads et prise en charge des calculs FP16.
NVIDIA Ampere : amélioré avec MMA à l’échelle de la chaîne complète, BF16 et TensorFloat-32.
NVIDIA Hopper : introduction du groupe Warp MMA sur 128 threads et du moteur Transformer avec prise en charge FP8.
NVIDIA Blackwell : moteur Transformer de 2e génération avec capacités de calcul FP8 et FP6 améliorées.

Comparaison de la mémoire GPU : Hopper H100 80 Go, Hopper H200 141 Go, Blackwell 192 Go, Blackwell Ultra 288 Go.

La puce Blackwell Ultra améliore considérablement la capacité mémoire, passant d’un maximum de 192 Go pour les modèles Blackwell GB200 à un impressionnant 288 Go pour le HBM3e. Cette avancée permet la prise en charge de modèles d’IA massifs de plusieurs milliers de milliards de paramètres. Son architecture mémoire comprend huit piles avec un contrôleur 512 bits fonctionnant à 8 To/s, permettant :

Hébergement complet du modèle : capacité à gérer plus de 300 milliards de modèles de paramètres sans décharger la mémoire.
Longueurs de contexte étendues : capacité de cache KV améliorée pour les applications de transformateur.
Efficacité de calcul améliorée : ratios calcul/mémoire élevés pour diverses charges de travail.

Graphique à barres comparant les niveaux de performances des GPU Dense FP8 et NVFP4.

L’architecture Blackwell comprend des interconnexions robustes, notamment NVLINK, NVLINK-C2C et une interface PCIe Gen6 x16, offrant les spécifications suivantes :

Bande passante par GPU : 1, 8 To/s bidirectionnel (18 liens x 100 Go/s).
Amélioration des performances : augmentation de 2x par rapport à NVLink 4 (par rapport à Hopper).
Topologie maximale : prend en charge jusqu’à 576 GPU dans une structure de calcul non bloquante.
Intégration à l’échelle du rack : permet des configurations de 72 GPU avec une bande passante globale de 130 To/s.

Interface PCIe : Gen6 avec 16 voies offrant un débit bidirectionnel de 256 Go/s.
NVLink-C2C : facilite la communication entre le CPU et le GPU avec une cohérence mémoire à 900 Go/s.

Interconnexion	GPU Hopper	GPU Blackwell	GPU Blackwell Ultra
NVLink (GPU-GPU)	900	1 800	1 800
NVLink-C2C (CPU-GPU)	900	900	900
Interface PCIe	128 (Gen 5)	256 (Gen 6)	256 (Gen 6)

Le processeur Blackwell Ultra GB300 de NVIDIA atteint une augmentation remarquable de 50 % de la puissance de calcul en basse précision grâce à l’adoption de la nouvelle norme NVFP4, offrant une précision proche de celle du FP8 avec des écarts minimes (moins de 1 %).Cette avancée réduit également les besoins en mémoire jusqu’à 1, 8 fois par rapport au FP8 et 3, 5 fois par rapport au FP16.

Diagramme du mécanisme d'attention du cache Blackwell KV avec indicateurs MatMul, Softmax et d'accélération par lots.

Le Blackwell Ultra intègre également une gestion de planification sophistiquée ainsi que des fonctionnalités de sécurité de niveau entreprise, notamment :

Moteur GigaThread amélioré : un planificateur avancé qui optimise la répartition de la charge de travail, améliorant ainsi les performances de changement de contexte sur les 160 SM.
GPU multi-instance (MIG) : possibilité de partitionner les GPU en plusieurs instances MIG, permettant des allocations de mémoire personnalisées pour une multi-location sécurisée.
Informatique confidentielle : dispositions pour une gestion sécurisée des modèles d’IA sensibles, en tirant parti de l’environnement d’exécution sécurisé (TEE) basé sur le matériel et des opérations NVLink sécurisées sans perte de performances significative.
Advanced NVIDIA Remote Attestation Service (RAS) : un système de surveillance basé sur l’IA qui améliore la fiabilité en prédisant les pannes et en optimisant la maintenance.

L’efficacité des performances s’améliore considérablement avec le Blackwell Ultra GB300, offrant un TPS/MW supérieur à celui du GB200, comme illustré dans les graphiques suivants :

Graphique de l'impact de l'architecture sur les performances d'inférence et la simulation de l'expérience utilisateur de la frontière de Pareto.

Graphique sur l'impact de l'architecture de l'IA sur les performances d'inférence et l'expérience utilisateur à la frontière de Pareto.

En résumé, NVIDIA demeure leader dans le domaine de l’IA, comme en témoignent ses architectures Blackwell et Blackwell Ultra. Son engagement à améliorer le support logiciel et les optimisations lui confère un solide avantage concurrentiel, soutenu par des activités de recherche et développement continues qui lui permettront de rester à la pointe du secteur pour les années à venir.

Source et images

GPU NVIDIA Blackwell Ultra « GB300 » : la puce IA la plus rapide avec double réticule, plus de 20 000 cœurs, 288 Go de mémoire HBM3e à 8 To/s, 50 % plus rapide que le GB200

Présentation du Blackwell Ultra « GB300 » de NVIDIA : une puce IA révolutionnaire

Articles connexes:

L'administration Trump va soutenir la production de puces avancées par Intel aux États-Unis et s'engager auprès de ses principaux clients

Le système Catalina Pod AI de Meta intègre NVIDIA Blackwell GB200 NVL72, Open Rack v3 et une technologie avancée de refroidissement liquide

Laisser un commentaire Annuler la réponse