AMD Instinct MI350 GPU:以 3nm 3D 小晶片、CDNA 4 架構、1850 億個電晶體、1400W TBP 和 288GB 記憶體釋放 AI 威力,支援超過 4000B LLM

AMD Instinct MI350 GPU:以 3nm 3D 小晶片、CDNA 4 架構、1850 億個電晶體、1400W TBP 和 288GB 記憶體釋放 AI 威力,支援超過 4000B LLM

在 2025 年 Hot Chips 大會上,AMD 全面披露了其最新 Instinct MI350 AI 加速器的細節,該加速器基於創新的 CDNA 4 架構。此次發布距離 MI350 系列首次發布僅兩個月,該系列專為高要求的 AI 工作負載而設計。

AMD 在 2025 年 Hot Chips 大會上發表 Instinct MI350 架構洞察,協助拓展法學碩士課程

AMD Instinct MI350 GPU 在 Hot Chips 2025 上展出。

MI350系列順應了大型語言模型(LLM)的指數級增長,推動了資料格式和晶片記憶體容量的提升。透過突破這些領域的界限,AMD顯著提升了AI處理的效能和效率。

大型人工智慧模型的趨勢:參數數量、上下文長度、代理人工智慧處理的成長

CDNA-4 架構的增強功能顯著提升了高頻寬記憶體 (HBM) 的容量和頻寬,從而能夠更快地在更廣泛的模型中進行 AI 訓練和推理。這些晶片顯著提升了鏈路速度,並實現了更好的能源效率和整體性能。

生成式人工智慧需求:GPU 記憶體、頻寬、ALU、功率效率、大規模模型訓練。

這種新架構透過優化功率傳輸並增強Infinity Fabric的連接性,實現了更快的處理速度,從而提高了運行期間的頻寬效率。它還支援各種低精度資料格式,例如FP8以及業界標準的微尺度MXFP6和MXFP4類型。

MI350系列型號及規格

AMD MI350 系列主要包括 MI350X,採用風冷設計,總板載功率 (TBP) 為 1000W,峰值時脈速度為 2.2 GHz。高階產品 MI355X 專為液冷資料中心量身定制,TBP 為 1400W,最高時脈速度為 2.4 GHz。

AMD Instinct MI350 GPU 規格:185B 電晶體和先進的 3D 晶片設計。

這些令人印象深刻的規格源自於 AMD 深厚的工程專業知識,其精妙設計在 3D 多晶片配置中整合了 1850 億個電晶體。這包括先進的 HBM3e 內存,並採用 3nm 和 6nm 製程技術,以優化成本效益和性能。

AMD Instinct MI350 小晶片架構圖。

架構分解和功能

架構細節顯示,每個 MI350 封裝共採用八個加速器複合晶片 (XCD),採用台積電領先的 3nm 技術打造。每個晶片透過強大的基礎設施連接,旨在實現最大吞吐量。

每個 I/O 基座晶片均採用更成熟的 6nm 工藝,確保更高的良率和成本效益。此晶片配置透過八個 HBM3e 通道實現高效的記憶體處理,為整個加速器提供高達 288 GB 的記憶體容量。

AMD Instinct MI350 GPU 晶片圖。

此外,記憶體子系統支援多種配置,以有效增強運算能力。這包括全面的內部記憶體架構和快取分層,旨在最大限度地提高資料密集型操作的效能。

績效指標與競爭優勢

在原始運算能力方面,MI350 系列與其前代產品相比取得了顯著的進步,展示了高達 20 PFLOP 的 FP4/FP6 運算能力——得益於 HBM3e 技術的進步和相關的快取改進,效能提高了四倍。

AMD Instinct MI350 GPU 效能相較於競爭對手有所提升。

AMD 表示,Instinct MI350 系列將於 2025 年第三季開始透過多個經銷合作夥伴發售。未來的發展也即將到來,MI400 系列預計將於 2026 年推出。

AMD Instinct AI 加速器比較:

加速器名稱 AMD Instinct MI500 AMD Instinct MI400 AMD Instinct MI350X AMD Instinct MI325X AMD Instinct MI300X AMD Instinct MI250X
GPU架構 CDNA Next/UDNA CDNA Next/UDNA 互補DNA 4 Aqua Vanjaram(CDNA 3) Aqua Vanjaram(CDNA 3) 畢宿五(CDNA 2)
GPU 處理節點 待定 待定 3奈米 5奈米+6奈米 5奈米+6奈米 6奈米
XCD(小晶片) 待定 8(MCM) 8(MCM) 8(MCM) 8(MCM) 2 (MCM),1 (每個晶片)
GPU核心 待定 待定 16, 384 19, 456 19, 456 14, 080
最大時脈速度 待定 待定 2400兆赫 2100兆赫 2100兆赫 1700兆赫
INT8 計算 待定 待定 5200 TOPS 2614 件 2614 件 383 TOP
FP6/FP4矩陣 待定 40 PFLOP 20 PFLOP 不適用 不適用 不適用
FP8矩陣 待定 20 PFLOP 5 PFLOP 2.6 PFLOPs 2.6 PFLOPs 不適用
FP16矩陣 待定 10 PFLOP 2.5 PFLOP 1.3 PFLOP 1.3 PFLOP 383 TFLOP
FP32向量 待定 待定 157.3 TFLOP 163.4 TFLOP 163.4 TFLOP 95.7 TFLOP
FP64向量 待定 待定 78.6 TFLOP 81.7 TFLOP 81.7 TFLOP 47.9 TFLOP
顯存 待定 432GB HBM4 288 GB HBM3e 256 GB HBM3e 192GB HBM3 128 GB HBM2e
無限緩存 待定 待定 256 MB 256 MB 256 MB 不適用
記憶體時鐘 待定 19.6 TB/秒 8.0 Gbps 5.9 Gbps 5.2 Gbps 3.2 Gbps
記憶體總線 待定 待定 8192位 8192位 8192位 8192位
記憶體頻寬 待定 待定 8TB/秒 6.0 TB/秒 5.3 TB/秒 3.2 TB/秒
外形尺寸 待定 待定 營運管理 營運管理 營運管理 營運管理
冷卻 待定 待定 被動/液體 被動冷卻 被動冷卻 被動冷卻
TDP(最大) 待定 待定 1400瓦(355X) 1000瓦 750瓦 560瓦

如欲了解更多詳情,請瀏覽來源

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *