GPU AMD Instinct MI350 : Libérez la puissance de l’IA avec un chipset 3D de 3 nm, une architecture CDNA 4, 185 milliards de transistors, une puissance de calcul de 1 400 W et 288 Go de mémoire pour une prise en charge de plus de 4 000 B LLM

GPU AMD Instinct MI350 : Libérez la puissance de l’IA avec un chipset 3D de 3 nm, une architecture CDNA 4, 185 milliards de transistors, une puissance de calcul de 1 400 W et 288 Go de mémoire pour une prise en charge de plus de 4 000 B LLM

Lors du salon Hot Chips 2025, AMD a dévoilé des informations complètes sur son dernier accélérateur d’IA Instinct MI350, basé sur l’architecture innovante CDNA 4. Cette annonce intervient à peine deux mois après le lancement initial de la série MI350, conçue spécifiquement pour les charges de travail d’IA exigeantes.

AMD dévoile les perspectives architecturales de l’Instinct MI350 lors du Hot Chips 2025, positionné pour des LLM expansifs

Les GPU AMD Instinct MI350 présentés au Hot Chips 2025.

La série MI350 a répondu à la croissance exponentielle des grands modèles de langage (LLM), rendant nécessaire des avancées dans les formats de données et les capacités mémoire des puces. En repoussant les limites dans ces domaines, AMD a considérablement amélioré les performances et l’efficacité du traitement de l’IA.

Tendances des grands modèles d'IA : croissance du nombre de paramètres, de la longueur du contexte et du traitement de l'IA agentique

Les améliorations apportées à l’architecture CDNA-4 améliorent considérablement la capacité et la bande passante de la mémoire à large bande passante (HBM), accélérant ainsi l’apprentissage et l’inférence de l’IA sur des modèles plus étendus. Les puces ont considérablement augmenté les vitesses de liaison, améliorant ainsi l’efficacité énergétique et les performances globales.

Besoins de l'IA générative : mémoire GPU, bande passante, ALU, efficacité énergétique, formation de modèles à grande échelle.

Cette nouvelle architecture accélère le traitement en optimisant la distribution d’énergie et en améliorant la connectivité via Infinity Fabric pour une meilleure efficacité de la bande passante pendant les opérations. Elle prend également en charge divers formats de données de faible précision, tels que FP8 et les formats MXFP6 et MXFP4 micro-échelle standard du secteur.

Variantes et spécifications de la série MI350

La série AMD MI350 comprend principalement le MI350X, un modèle refroidi par air offrant une puissance totale de 1 000 W et une fréquence d’horloge maximale de 2, 2 GHz. Plus haut de gamme, le modèle MI355X est conçu pour les centres de données refroidis par liquide, avec une puissance totale de 1 400 W et une fréquence d’horloge maximale de 2, 4 GHz.

Spécifications du GPU AMD Instinct MI350 : transistors 185B et conception de puce 3D avancée.

Ces spécifications impressionnantes sont le fruit de la vaste expertise d’AMD en ingénierie, avec une conception sophistiquée de 185 milliards de transistors au sein d’une configuration multi-chiplets 3D. Celle-ci inclut une mémoire HBM3e avancée et utilise les technologies de gravure 3 nm et 6 nm pour optimiser la rentabilité et les performances.

Schéma d'architecture du chipset AMD Instinct MI350.

Décomposition architecturale et capacités

Les détails architecturaux révèlent un total de huit puces complexes d’accélérateurs (XCD) utilisées par boîtier MI350, fabriquées grâce à la technologie 3 nm de pointe de TSMC. Chaque puce est connectée via une infrastructure robuste conçue pour un débit maximal.

Chaque matrice d’E/S utilise un procédé 6 nm plus abouti, garantissant des rendements et une rentabilité accrus. La configuration de la matrice facilite la gestion efficace de la mémoire grâce à huit sites HBM3e, offrant ainsi une capacité de mémoire importante de 288 Go sur l’accélérateur.

Diagramme des chipsets GPU AMD Instinct MI350.

De plus, le sous-système mémoire prend en charge diverses configurations pour optimiser les capacités de calcul. Cela inclut une architecture de mémoire interne complète et une hiérarchisation du cache conçue pour optimiser les performances lors des opérations gourmandes en données.

Indicateurs de performance et avantage concurrentiel

En termes de puissance de calcul brute, la série MI350 parvient à offrir des améliorations considérables par rapport à ses prédécesseurs, présentant jusqu’à 20 PFLOP de capacité de calcul FP4/FP6, soit une impressionnante multiplication par quatre des performances grâce aux avancées de la technologie HBM3e et aux améliorations de cache associées.

Amélioration des performances du GPU AMD Instinct MI350 par rapport aux concurrents.

AMD a indiqué que la série Instinct MI350 sera disponible auprès de plusieurs partenaires de distribution à partir du troisième trimestre 2025. Des développements futurs sont également à l’horizon, avec le lancement de la série MI400 prévu pour 2026.

Comparaison des accélérateurs d’IA AMD Instinct :

Nom de l’accélérateur AMD Instinct MI500 AMD Instinct MI400 AMD Instinct MI350X AMD Instinct MI325X AMD Instinct MI300X AMD Instinct MI250X
Architecture GPU ADNc suivant / ADNud ADNc suivant / ADNud ADNc 4 Aqua Vanjaram (ADNc 3) Aqua Vanjaram (ADNc 3) Aldébaran (ADNC 2)
Nœud de processus GPU À déterminer À déterminer 3 nm 5 nm + 6 nm 5 nm + 6 nm 6 nm
XCD (chiplets) À déterminer 8 (MCM) 8 (MCM) 8 (MCM) 8 (MCM) 2 (MCM), 1 (par dé)
Cœurs GPU À déterminer À déterminer 16 384 19 456 19 456 14 080
Vitesse d’horloge maximale À déterminer À déterminer 2400 MHz 2100 MHz 2100 MHz 1700 MHz
Calcul INT8 À déterminer À déterminer 5200 TOPS 2614 TOPS 2614 TOPS 383 TOP
Matrice FP6/FP4 À déterminer 40 PFLOP 20 PFLOP N / A N / A N / A
Matrice FP8 À déterminer 20 PFLOP 5 PFLOP 2, 6 PFLOP 2, 6 PFLOP N / A
Matrice FP16 À déterminer 10 PFLOP 2, 5 PFLOP 1, 3 PFLOP 1, 3 PFLOP 383 TFLOP
Vecteur FP32 À déterminer À déterminer 157, 3 TFLOP 163, 4 TFLOP 163, 4 TFLOP 95, 7 TFLOP
Vecteur FP64 À déterminer À déterminer 78, 6 TFLOP 81, 7 TFLOP 81, 7 TFLOP 47, 9 TFLOP
VRAM À déterminer 432 Go HBM4 288 Go HBM3e 256 Go HBM3e 192 Go HBM3 128 Go HBM2e
Cache infini À déterminer À déterminer 256 Mo 256 Mo 256 Mo N / A
Horloge mémoire À déterminer 19, 6 To/s 8, 0 Gbit/s 5, 9 Gbit/s 5, 2 Gbit/s 3, 2 Gbit/s
Bus mémoire À déterminer À déterminer 8192 bits 8192 bits 8192 bits 8192 bits
Bande passante mémoire À déterminer À déterminer 8 To/s 6, 0 To/s 5, 3 To/s 3, 2 To/s
Facteur de forme À déterminer À déterminer OAM OAM OAM OAM
Refroidissement À déterminer À déterminer Passif / Liquide Refroidissement passif Refroidissement passif Refroidissement passif
TDP (Max) À déterminer À déterminer 1400 W (355X) 1000W 750 W 560 W

Pour plus de détails, visitez la source.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *