
Lors du salon Hot Chips 2025, AMD a dévoilé des informations complètes sur son dernier accélérateur d’IA Instinct MI350, basé sur l’architecture innovante CDNA 4. Cette annonce intervient à peine deux mois après le lancement initial de la série MI350, conçue spécifiquement pour les charges de travail d’IA exigeantes.
AMD dévoile les perspectives architecturales de l’Instinct MI350 lors du Hot Chips 2025, positionné pour des LLM expansifs

La série MI350 a répondu à la croissance exponentielle des grands modèles de langage (LLM), rendant nécessaire des avancées dans les formats de données et les capacités mémoire des puces. En repoussant les limites dans ces domaines, AMD a considérablement amélioré les performances et l’efficacité du traitement de l’IA.

Les améliorations apportées à l’architecture CDNA-4 améliorent considérablement la capacité et la bande passante de la mémoire à large bande passante (HBM), accélérant ainsi l’apprentissage et l’inférence de l’IA sur des modèles plus étendus. Les puces ont considérablement augmenté les vitesses de liaison, améliorant ainsi l’efficacité énergétique et les performances globales.

Cette nouvelle architecture accélère le traitement en optimisant la distribution d’énergie et en améliorant la connectivité via Infinity Fabric pour une meilleure efficacité de la bande passante pendant les opérations. Elle prend également en charge divers formats de données de faible précision, tels que FP8 et les formats MXFP6 et MXFP4 micro-échelle standard du secteur.
Variantes et spécifications de la série MI350
La série AMD MI350 comprend principalement le MI350X, un modèle refroidi par air offrant une puissance totale de 1 000 W et une fréquence d’horloge maximale de 2, 2 GHz. Plus haut de gamme, le modèle MI355X est conçu pour les centres de données refroidis par liquide, avec une puissance totale de 1 400 W et une fréquence d’horloge maximale de 2, 4 GHz.

Ces spécifications impressionnantes sont le fruit de la vaste expertise d’AMD en ingénierie, avec une conception sophistiquée de 185 milliards de transistors au sein d’une configuration multi-chiplets 3D. Celle-ci inclut une mémoire HBM3e avancée et utilise les technologies de gravure 3 nm et 6 nm pour optimiser la rentabilité et les performances.

Décomposition architecturale et capacités
Les détails architecturaux révèlent un total de huit puces complexes d’accélérateurs (XCD) utilisées par boîtier MI350, fabriquées grâce à la technologie 3 nm de pointe de TSMC. Chaque puce est connectée via une infrastructure robuste conçue pour un débit maximal.
Chaque matrice d’E/S utilise un procédé 6 nm plus abouti, garantissant des rendements et une rentabilité accrus. La configuration de la matrice facilite la gestion efficace de la mémoire grâce à huit sites HBM3e, offrant ainsi une capacité de mémoire importante de 288 Go sur l’accélérateur.

De plus, le sous-système mémoire prend en charge diverses configurations pour optimiser les capacités de calcul. Cela inclut une architecture de mémoire interne complète et une hiérarchisation du cache conçue pour optimiser les performances lors des opérations gourmandes en données.
Indicateurs de performance et avantage concurrentiel
En termes de puissance de calcul brute, la série MI350 parvient à offrir des améliorations considérables par rapport à ses prédécesseurs, présentant jusqu’à 20 PFLOP de capacité de calcul FP4/FP6, soit une impressionnante multiplication par quatre des performances grâce aux avancées de la technologie HBM3e et aux améliorations de cache associées.

AMD a indiqué que la série Instinct MI350 sera disponible auprès de plusieurs partenaires de distribution à partir du troisième trimestre 2025. Des développements futurs sont également à l’horizon, avec le lancement de la série MI400 prévu pour 2026.
Comparaison des accélérateurs d’IA AMD Instinct :
Nom de l’accélérateur | AMD Instinct MI500 | AMD Instinct MI400 | AMD Instinct MI350X | AMD Instinct MI325X | AMD Instinct MI300X | AMD Instinct MI250X |
---|---|---|---|---|---|---|
Architecture GPU | ADNc suivant / ADNud | ADNc suivant / ADNud | ADNc 4 | Aqua Vanjaram (ADNc 3) | Aqua Vanjaram (ADNc 3) | Aldébaran (ADNC 2) |
Nœud de processus GPU | À déterminer | À déterminer | 3 nm | 5 nm + 6 nm | 5 nm + 6 nm | 6 nm |
XCD (chiplets) | À déterminer | 8 (MCM) | 8 (MCM) | 8 (MCM) | 8 (MCM) | 2 (MCM), 1 (par dé) |
Cœurs GPU | À déterminer | À déterminer | 16 384 | 19 456 | 19 456 | 14 080 |
Vitesse d’horloge maximale | À déterminer | À déterminer | 2400 MHz | 2100 MHz | 2100 MHz | 1700 MHz |
Calcul INT8 | À déterminer | À déterminer | 5200 TOPS | 2614 TOPS | 2614 TOPS | 383 TOP |
Matrice FP6/FP4 | À déterminer | 40 PFLOP | 20 PFLOP | N / A | N / A | N / A |
Matrice FP8 | À déterminer | 20 PFLOP | 5 PFLOP | 2, 6 PFLOP | 2, 6 PFLOP | N / A |
Matrice FP16 | À déterminer | 10 PFLOP | 2, 5 PFLOP | 1, 3 PFLOP | 1, 3 PFLOP | 383 TFLOP |
Vecteur FP32 | À déterminer | À déterminer | 157, 3 TFLOP | 163, 4 TFLOP | 163, 4 TFLOP | 95, 7 TFLOP |
Vecteur FP64 | À déterminer | À déterminer | 78, 6 TFLOP | 81, 7 TFLOP | 81, 7 TFLOP | 47, 9 TFLOP |
VRAM | À déterminer | 432 Go HBM4 | 288 Go HBM3e | 256 Go HBM3e | 192 Go HBM3 | 128 Go HBM2e |
Cache infini | À déterminer | À déterminer | 256 Mo | 256 Mo | 256 Mo | N / A |
Horloge mémoire | À déterminer | 19, 6 To/s | 8, 0 Gbit/s | 5, 9 Gbit/s | 5, 2 Gbit/s | 3, 2 Gbit/s |
Bus mémoire | À déterminer | À déterminer | 8192 bits | 8192 bits | 8192 bits | 8192 bits |
Bande passante mémoire | À déterminer | À déterminer | 8 To/s | 6, 0 To/s | 5, 3 To/s | 3, 2 To/s |
Facteur de forme | À déterminer | À déterminer | OAM | OAM | OAM | OAM |
Refroidissement | À déterminer | À déterminer | Passif / Liquide | Refroidissement passif | Refroidissement passif | Refroidissement passif |
TDP (Max) | À déterminer | À déterminer | 1400 W (355X) | 1000W | 750 W | 560 W |
Pour plus de détails, visitez la source.
Laisser un commentaire