
Hot Chips 2025において、AMDは革新的なCDNA 4アーキテクチャを搭載した最新のAIアクセラレーター「Instinct MI350」の詳細を発表しました。この発表は、要求の厳しいAIワークロード向けに特別に設計されたMI350シリーズの発売からわずか2か月後のことでした。
AMD、Hot Chips 2025でInstinct MI350のアーキテクチャに関する洞察を発表、拡張LLMに向けて準備

MI350シリーズは、大規模言語モデル(LLM)の急激な増加に対応し、データ形式とチップメモリ容量の両方の進化の必要性を促しました。これらの分野の限界を押し広げることで、AMDはAI処理のパフォーマンスと効率を大幅に向上させました。

CDNA-4アーキテクチャの強化により、高帯域幅メモリ(HBM)の容量と帯域幅が大幅に向上し、より拡張性の高いモデルにおけるAIのトレーニングと推論の高速化が実現します。チップのリンク速度は飛躍的に向上し、電力効率と全体的なパフォーマンスが向上しています。

この新しいアーキテクチャは、電力供給を最適化し、Infinity Fabricを介した接続性を強化することで、動作中の帯域幅効率を向上させることで、処理速度を向上させます。また、FP8や業界標準のマイクロスケールMXFP6およびMXFP4など、さまざまな低精度データフォーマットもサポートします。
MI350シリーズのバリエーションと仕様
AMD MI350シリーズには、主にMI350Xが含まれます。これは空冷設計で、総ボード電力(TBP)は1000W、ピーククロック速度は2.2GHzです。上位モデルのMI355Xは、液冷式データセンター向けに設計されており、TBPは1400W、最大クロック速度は2.4GHzです。

これらの優れた仕様は、AMDの豊富なエンジニアリング専門知識から生まれたもので、3Dマルチチップレット構成内に1, 850億個のトランジスタを搭載した洗練された設計が特徴です。これには、高度なHBM3eメモリが含まれ、3nmと6nmの両方のプロセス技術を活用することで、コスト効率とパフォーマンスが最適化されています。

アーキテクチャの内訳と機能
アーキテクチャの詳細を見ると、MI350パッケージにはTSMCの最先端3nmプロセス技術を用いて製造されたアクセラレータ・コンプレックス・ダイ(XCD)が合計8個搭載されていることがわかります。各チップは、最大限のスループットを実現するために設計された堅牢なインフラストラクチャを介して接続されています。
各I/Oベースダイは、より成熟した6nmプロセスで動作し、歩留まりとコスト効率の向上を実現します。ダイ構成は、8つのHBM3eサイトを通じて効率的なメモリ処理を可能にし、アクセラレータ全体で288GBという大容量のメモリを提供します。

さらに、メモリサブシステムは、コンピューティング能力を効率的に強化するための多様な構成をサポートしています。これには、データ集約型処理のパフォーマンスを最大化するように設計された包括的な内部メモリアーキテクチャとキャッシュ階層化が含まれます。
パフォーマンス指標と競争優位性
純粋な計算能力の点では、MI350 シリーズは前世代製品と比較して大幅に向上し、最大 20 PFLOP の FP4/FP6 計算能力を発揮します。これは、HBM3e テクノロジーの進歩と関連するキャッシュの改善により、パフォーマンスが 4 倍に向上するという驚異的な成果です。

AMDは、Instinct MI350シリーズが2025年第3四半期から複数の販売パートナーを通じて提供される予定であると発表しました。今後の開発も予定されており、MI400シリーズは2026年に発売される予定です。
AMD Instinct AIアクセラレータの比較:
アクセラレータ名 | AMD インスティンクト MI500 | AMD インスティンクト MI400 | AMD インスティンクト MI350X | AMD インスティンクト MI325X | AMD インスティンクト MI300X | AMD インスティンクト MI250X |
---|---|---|---|---|---|---|
GPUアーキテクチャ | CDNA Next / UDNA | CDNA Next / UDNA | CDNA4 | アクア・ヴァンジャラム(CDNA 3) | アクア・ヴァンジャラム(CDNA 3) | アルデバラン(CDNA 2) |
GPUプロセスノード | 未定 | 未定 | 3nm | 5nm + 6nm | 5nm + 6nm | 6 nm |
XCD(チップレット) | 未定 | 8(MCM) | 8(MCM) | 8(MCM) | 8(MCM) | 2 (MCM)、1 (ダイスあたり) |
GPUコア | 未定 | 未定 | 16, 384 | 19, 456 | 19, 456 | 14, 080 |
最大クロック速度 | 未定 | 未定 | 2400MHz | 2100MHz | 2100MHz | 1700MHz |
INT8コンピューティング | 未定 | 未定 | 5200トップス | 2614トップス | 2614トップス | 383 TOPs |
FP6/FP4マトリックス | 未定 | 40PFLOPS | 20PFLOPS | 該当なし | 該当なし | 該当なし |
FP8マトリックス | 未定 | 20PFLOPS | 5PFLOPS | 2.6 PFLOPs | 2.6 PFLOPs | 該当なし |
FP16マトリックス | 未定 | 10PFLOPS | 2.5PFLOPS | 1.3 PFLOPs | 1.3 PFLOPs | 383 TFLOPS |
FP32ベクター | 未定 | 未定 | 157.3 TFLOPS | 163.4 TFLOPS | 163.4 TFLOPS | 95.7 TFLOPS |
FP64ベクター | 未定 | 未定 | 78.6 TFLOPS | 81.7 TFLOPS | 81.7 TFLOPS | 47.9 TFLOPS |
VRAM | 未定 | 432GB HBM4 | 288 GB HBM3e | 256 GB HBM3e | 192GB HBM3 | 128 GB HBM2e |
インフィニティキャッシュ | 未定 | 未定 | 256MB | 256MB | 256MB | 該当なし |
メモリクロック | 未定 | 19.6 TB/秒 | 8.0 Gbps | 5.9 Gbps | 5.2 Gbps | 3.2 Gbps |
メモリバス | 未定 | 未定 | 8192ビット | 8192ビット | 8192ビット | 8192ビット |
メモリ帯域幅 | 未定 | 未定 | 8TB/秒 | 6.0 TB/秒 | 5.3 TB/秒 | 3.2 TB/秒 |
フォームファクター | 未定 | 未定 | OAM | OAM | OAM | OAM |
冷却 | 未定 | 未定 | パッシブ/リキッド | パッシブ冷却 | パッシブ冷却 | パッシブ冷却 |
TDP(最大) | 未定 | 未定 | 1400W(355X) | 1000W | 750W | 560W |
詳細については、ソースを参照してください。
コメントを残す