
AMD 公佈了其新款 Radeon AI PRO R9700 GPU 的詳細資料,重點介紹了與現有 Radeon PRO W7800 型號相比在人工智慧任務方面的能力。
AMD Radeon AI PRO R9700:AI 能力的飛躍
AMD 採取了一項重要舉措,更新了其軟體生態系統,將 ROCm 7 納入其中,將其 AI 加速器方法定位於三大策略類別。這些包括:
- **Ryzen AI MAX APU:**針對小型到中型大型語言模型(LLM)。
- **Radeon AI PRO GPU:**針對多 GPU 邊緣推理和中小型 LLM 進行了最佳化。
- **Instinct AI Accelerators**:專為專注於機架規模推理和訓練的大型 LLM 而設計。
雖然 MI350 系列已經詳細介紹,但焦點仍在 AMD 的 Radeon AI PRO 系列上,其中 R9700 承諾在 AI 性能方面取得實質進步。
規格和性能指標
Radeon AI PRO R9700 基於 Navi 48 架構,配備 64 個運算單元,相當於 4096 個流處理器。這款 GPU 的特色包括:
- **AI 加速器**:128 個單元,用於增強計算。
- **熱設計功率:**最大為 300W。
- **記憶體:** 256 位元匯流排上有 32 GB 的 GDDR6,有效地使 Radeon 9070 XT 的 VRAM 翻倍。
在原始運算能力方面,AMD 報告指出:
- **FP16 計算:**96 TFLOP。
- **INT4(稀疏):**1531 TOPS。
R9700 旨在促進複雜 AI 模型的高效完成,使其成為高階本地 AI 工作負載的理想之選。值得關注的、可利用此 GPU 的模型包括:
- DeepSeek R1 Distill Qwen 32B Q6
- 米斯特拉爾小型 3.1 24B 指令 2503 Q8
- Flux 1 快速
- SD 3.5 中等
競爭優勢與比較
效能評估表明,在 DeepSeek R1 場景下,R9700 的運行速度是 Radeon PRO W7800 的兩倍。此外,與配備 16 GB VRAM 緩衝區的 RTX 5080 相比,R9700 以其強大的記憶體能力,效能提升高達五倍。
令人印象深刻的運算能力
Radeon AI PRO R9700 的詳細運算指標反映了其強大的 AI 處理能力:
- **FP32:**47.8 TFLOP。
- **FP16/BF16:**191.4 TFLOP。
- **FP8:**382.7 TFLOP。
- **INT8:**382.7 TOPS。
- **INT4:**765.5 TOPS。
波矩陣乘法累加 (WMMA) 指令和結構化稀疏性等關鍵支援技術顯著增強了其效能指標。
模型支援和可擴展性
值得注意的是,AMD 強調,支援更大的模型對於在 AI 任務中取得優異成果至關重要。例如,在 FP16 上運行的 8B 文字轉圖像模型,其結果遠優於 1B 模型。同樣,使用更高容量的模型(例如 32B 6 位元模型)可以提高 8B 6 位元模型的準確性。
此外,R9700 可整合至現代 PCIe 5.0 平台上的 4 路多 GPU 配置中,可實現高達 128 GB 的記憶體容量。如此大的容量足以支援 Mistral 123B 和 DeepSeek R1 70B 等要求苛刻的型號,這些型號在運行時需要 112-116 GB 的記憶體。
發布和可用性
AMD Radeon AI PRO R9700 預計將於 7 月發布,人們對此充滿期待,並將透過值得信賴的合作夥伴發售,包括:
- 華碩
- 華擎
- 技嘉
- 迪蘭恆進
- 藍寶石
- 訊景
- 盈通
此 GPU 將採用雙槽設計,配備鼓風機冷卻器,旨在增強其性能和熱管理。

與 Radeon Pro Workstation Graphics 的比較
顯示卡名稱 | Radeon R9700 | Radeon Pro W7900 | Radeon Pro W7800 | Radeon Pro W6900X | Radeon Pro W6800 | Radeon Pro VII | Radeon Pro W5700X | Radeon Pro W5700 | Radeon Pro WX 9100 | Radeon Pro WX 8200 | Radeon Pro WX 7100 |
---|---|---|---|---|---|---|---|---|---|---|---|
圖形處理器 | 納維48 | 納維 31 | 納維 31 | 納維 21 | 納維 21 | 維加 20 | Navi 10 | Navi 10 | 維加 10 | 維加 10 | 北極星10 |
行程節點 | 4奈米 | 5奈米+6奈米 | 5奈米+6奈米 | 7奈米 | 7奈米 | 7奈米 | 7奈米 | 7奈米 | 14奈米 | 14奈米 | 14奈米 |
計算單元 | 64 CU | 96 立方英尺 | 70立方英尺 | 80 | 60 | 60 | 40 | 三十六 | 64 | 56 | 三十六 |
串流處理器 | 4096 | 6144 | 4480 | 5120 | 3840 | 3840 | 2560 | 2304 | 4096 | 3584 | 2304 |
時脈速度(峰值) | 待定 | ~2.5 GHz | ~2.5 GHz | 2171兆赫 | 2320兆赫 | 1700兆赫 | 2040兆赫 | 1930兆赫 | 1500兆赫 | 1500兆赫 | 1243兆赫 |
顯存 | 32GB GDDR6 | 48GB GDDR6 | 32GB GDDR6 | 32GB GDDR6 | 32GB GDDR6 | 16 GB HBM2 | 16GB GDDR6 | 8GB GDDR6 | 16 GB HBM2 | 8 GB HBM2 | 8 GB GDDR5 |
記憶體頻寬 | 640GB/秒 | 864 GB/秒 | 576 GB/秒 | 512GB/秒 | 512GB/秒 | 1024 GB/秒 | 448 GB/秒 | 448 GB/秒 | 512GB/秒 | 484GB/秒 | 224 GB/秒 |
記憶體總線 | 256位 | 384位 | 256位 | 256位 | 256位 | 4096位 | 256位 | 256位 | 2048位 | 2048位 | 256位 |
計算速率(FP32) | 48 TFLOP | 61.3 TFLOP | 45.2 TFLOP | 22.23 TFLOP | 17.82 TFLOP | 13.1 TFLOP | 9.5 TFLOP | 8.89 TFLOP | 12.3 TFLOP | 10.8 TFLOP | 5.7 TFLOP |
TDP | 300瓦 | 295瓦 | 260瓦 | 300瓦 | 250瓦 | 250瓦 | 240瓦 | 205瓦 | 250瓦 | 230瓦 | 150瓦 |
價格 | 待定 | 3999美元 | 2499美元 | 5999美元 | 2249美元 | 1899美元 | 999美元 | 799美元 | 2199美元 | 999美元 | 799美元 |
發射 | 2025 | 2023 | 2023 | 2021 | 2021 | 2020 | 2019 | 2019 | 2017 | 2018 | 2016 |
發佈留言 ▼