
在 2025 年 Hot Chips 大會上,AMD 全面披露了其最新 Instinct MI350 AI 加速器的細節,該加速器基於創新的 CDNA 4 架構。此次發布距離 MI350 系列首次發布僅兩個月,該系列專為高要求的 AI 工作負載而設計。
AMD 在 2025 年 Hot Chips 大會上發表 Instinct MI350 架構洞察,協助拓展法學碩士課程

MI350系列順應了大型語言模型(LLM)的指數級增長,推動了資料格式和晶片記憶體容量的提升。透過突破這些領域的界限,AMD顯著提升了AI處理的效能和效率。

CDNA-4 架構的增強功能顯著提升了高頻寬記憶體 (HBM) 的容量和頻寬,從而能夠更快地在更廣泛的模型中進行 AI 訓練和推理。這些晶片顯著提升了鏈路速度,並實現了更好的能源效率和整體性能。

這種新架構透過優化功率傳輸並增強Infinity Fabric的連接性,實現了更快的處理速度,從而提高了運行期間的頻寬效率。它還支援各種低精度資料格式,例如FP8以及業界標準的微尺度MXFP6和MXFP4類型。
MI350系列型號及規格
AMD MI350 系列主要包括 MI350X,採用風冷設計,總板載功率 (TBP) 為 1000W,峰值時脈速度為 2.2 GHz。高階產品 MI355X 專為液冷資料中心量身定制,TBP 為 1400W,最高時脈速度為 2.4 GHz。

這些令人印象深刻的規格源自於 AMD 深厚的工程專業知識,其精妙設計在 3D 多晶片配置中整合了 1850 億個電晶體。這包括先進的 HBM3e 內存,並採用 3nm 和 6nm 製程技術,以優化成本效益和性能。

架構分解和功能
架構細節顯示,每個 MI350 封裝共採用八個加速器複合晶片 (XCD),採用台積電領先的 3nm 技術打造。每個晶片透過強大的基礎設施連接,旨在實現最大吞吐量。
每個 I/O 基座晶片均採用更成熟的 6nm 工藝,確保更高的良率和成本效益。此晶片配置透過八個 HBM3e 通道實現高效的記憶體處理,為整個加速器提供高達 288 GB 的記憶體容量。

此外,記憶體子系統支援多種配置,以有效增強運算能力。這包括全面的內部記憶體架構和快取分層,旨在最大限度地提高資料密集型操作的效能。
績效指標與競爭優勢
在原始運算能力方面,MI350 系列與其前代產品相比取得了顯著的進步,展示了高達 20 PFLOP 的 FP4/FP6 運算能力——得益於 HBM3e 技術的進步和相關的快取改進,效能提高了四倍。

AMD 表示,Instinct MI350 系列將於 2025 年第三季開始透過多個經銷合作夥伴發售。未來的發展也即將到來,MI400 系列預計將於 2026 年推出。
AMD Instinct AI 加速器比較:
加速器名稱 | AMD Instinct MI500 | AMD Instinct MI400 | AMD Instinct MI350X | AMD Instinct MI325X | AMD Instinct MI300X | AMD Instinct MI250X |
---|---|---|---|---|---|---|
GPU架構 | CDNA Next/UDNA | CDNA Next/UDNA | 互補DNA 4 | Aqua Vanjaram(CDNA 3) | Aqua Vanjaram(CDNA 3) | 畢宿五(CDNA 2) |
GPU 處理節點 | 待定 | 待定 | 3奈米 | 5奈米+6奈米 | 5奈米+6奈米 | 6奈米 |
XCD(小晶片) | 待定 | 8(MCM) | 8(MCM) | 8(MCM) | 8(MCM) | 2 (MCM),1 (每個晶片) |
GPU核心 | 待定 | 待定 | 16, 384 | 19, 456 | 19, 456 | 14, 080 |
最大時脈速度 | 待定 | 待定 | 2400兆赫 | 2100兆赫 | 2100兆赫 | 1700兆赫 |
INT8 計算 | 待定 | 待定 | 5200 TOPS | 2614 件 | 2614 件 | 383 TOP |
FP6/FP4矩陣 | 待定 | 40 PFLOP | 20 PFLOP | 不適用 | 不適用 | 不適用 |
FP8矩陣 | 待定 | 20 PFLOP | 5 PFLOP | 2.6 PFLOPs | 2.6 PFLOPs | 不適用 |
FP16矩陣 | 待定 | 10 PFLOP | 2.5 PFLOP | 1.3 PFLOP | 1.3 PFLOP | 383 TFLOP |
FP32向量 | 待定 | 待定 | 157.3 TFLOP | 163.4 TFLOP | 163.4 TFLOP | 95.7 TFLOP |
FP64向量 | 待定 | 待定 | 78.6 TFLOP | 81.7 TFLOP | 81.7 TFLOP | 47.9 TFLOP |
顯存 | 待定 | 432GB HBM4 | 288 GB HBM3e | 256 GB HBM3e | 192GB HBM3 | 128 GB HBM2e |
無限緩存 | 待定 | 待定 | 256 MB | 256 MB | 256 MB | 不適用 |
記憶體時鐘 | 待定 | 19.6 TB/秒 | 8.0 Gbps | 5.9 Gbps | 5.2 Gbps | 3.2 Gbps |
記憶體總線 | 待定 | 待定 | 8192位 | 8192位 | 8192位 | 8192位 |
記憶體頻寬 | 待定 | 待定 | 8TB/秒 | 6.0 TB/秒 | 5.3 TB/秒 | 3.2 TB/秒 |
外形尺寸 | 待定 | 待定 | 營運管理 | 營運管理 | 營運管理 | 營運管理 |
冷卻 | 待定 | 待定 | 被動/液體 | 被動冷卻 | 被動冷卻 | 被動冷卻 |
TDP(最大) | 待定 | 待定 | 1400瓦(355X) | 1000瓦 | 750瓦 | 560瓦 |
如欲了解更多詳情,請瀏覽來源。
發佈留言