
AMD 公布了其新款 Radeon AI PRO R9700 GPU 的详细资料,重点介绍了其与现有 Radeon PRO W7800 型号相比在人工智能任务方面的能力。
AMD Radeon AI PRO R9700:AI 能力的飞跃
AMD 采取了一项重要举措,更新了其软件生态系统,将 ROCm 7 纳入其中,将其 AI 加速器方法定位于三大战略类别。这些包括:
- **Ryzen AI MAX APU:**针对小型到中型大型语言模型(LLM)。
- **Radeon AI PRO GPU:**针对多 GPU 边缘推理和中小型 LLM 进行了优化。
- **Instinct AI Accelerators**:专为专注于机架规模推理和训练的大型 LLM 而设计。
虽然 MI350 系列已经详细介绍,但焦点还是在 AMD 的 Radeon AI PRO 系列上,其中 R9700 承诺在 AI 性能方面取得实质性进步。
规格和性能指标
Radeon AI PRO R9700 基于 Navi 48 架构,配备 64 个计算单元,相当于 4096 个流处理器。这款 GPU 的特点包括:
- **AI 加速器**:128 个单元,用于增强计算。
- **热设计功率:**最大为 300W。
- **内存:** 256 位总线上有 32 GB 的 GDDR6,有效地使 Radeon 9070 XT 的 VRAM 翻倍。
在原始计算能力方面,AMD 报告称:
- **FP16 计算:**96 TFLOP。
- **INT4(稀疏):**1531 TOPS。
R9700 旨在促进复杂 AI 模型的高效完成,使其成为高级本地 AI 工作负载的理想之选。值得关注的、可利用此 GPU 的模型包括:
- DeepSeek R1 Distill Qwen 32B Q6
- 米斯特拉尔小型 3.1 24B 指令 2503 Q8
- Flux 1 快速
- SD 3.5 中等
竞争优势与比较
性能评估表明,在 DeepSeek R1 场景下,R9700 的运行速度是 Radeon PRO W7800 的两倍。此外,与配备 16 GB VRAM 缓冲区的 RTX 5080 相比,R9700 凭借其强大的内存能力,性能提升高达五倍。
令人印象深刻的计算能力
Radeon AI PRO R9700 的详细计算指标体现了其强大的 AI 处理能力:
- **FP32:**47.8 TFLOP。
- **FP16/BF16:**191.4 TFLOP。
- **FP8:**382.7 TFLOP。
- **INT8:**382.7 TOPS。
- **INT4:**765.5 TOPS。
波矩阵乘法累加 (WMMA) 指令和结构化稀疏性等关键支持技术显著增强了其性能指标。
模型支持和可扩展性
值得注意的是,AMD 强调,支持更大的模型对于在 AI 任务中取得优异成果至关重要。例如,一个在 FP16 上运行的 8B 文本转图像模型,其结果远优于 1B 模型。同样,使用更高容量的模型(例如 32B 6 位模型)可以提高 8B 6 位模型的准确性。
此外,R9700 可集成到现代 PCIe 5.0 平台上的 4 路多 GPU 配置中,从而实现高达 128 GB 的显存容量。如此大的容量足以支持 Mistral 123B 和 DeepSeek R1 70B 等要求苛刻的型号,这些型号在运行时需要 112-116 GB 的显存。
发布和可用性
AMD Radeon AI PRO R9700 预计将于 7 月发布,人们对此充满期待,并将通过值得信赖的合作伙伴发售,包括:
- 华硕
- 华擎
- 技嘉
- 迪兰恒进
- 蓝宝石
- 讯景
- 盈通
该 GPU 将采用双槽设计,配有鼓风机冷却器,旨在增强其性能和热管理。

与 Radeon Pro Workstation Graphics 的比较
显卡名称 | Radeon R9700 | Radeon Pro W7900 | Radeon Pro W7800 | Radeon Pro W6900X | Radeon Pro W6800 | Radeon Pro VII | Radeon Pro W5700X | Radeon Pro W5700 | Radeon Pro WX 9100 | Radeon Pro WX 8200 | Radeon Pro WX 7100 |
---|---|---|---|---|---|---|---|---|---|---|---|
图形处理器 | 纳维48 | 纳维 31 | 纳维 31 | 纳维 21 | 纳维 21 | 维加 20 | Navi 10 | Navi 10 | 维加 10 | 维加 10 | 北极星10 |
进程节点 | 4纳米 | 5纳米+6纳米 | 5纳米+6纳米 | 7纳米 | 7纳米 | 7纳米 | 7纳米 | 7纳米 | 14纳米 | 14纳米 | 14纳米 |
计算单元 | 64 CU | 96 立方英尺 | 70立方英尺 | 80 | 60 | 60 | 40 | 三十六 | 64 | 56 | 三十六 |
流处理器 | 4096 | 6144 | 4480 | 5120 | 3840 | 3840 | 2560 | 2304 | 4096 | 3584 | 2304 |
时钟速度(峰值) | 待定 | ~2.5 GHz | ~2.5 GHz | 2171兆赫 | 2320兆赫 | 1700兆赫 | 2040兆赫 | 1930兆赫 | 1500兆赫 | 1500兆赫 | 1243兆赫 |
显存 | 32GB GDDR6 | 48GB GDDR6 | 32GB GDDR6 | 32GB GDDR6 | 32GB GDDR6 | 16 GB HBM2 | 16GB GDDR6 | 8GB GDDR6 | 16 GB HBM2 | 8 GB HBM2 | 8 GB GDDR5 |
内存带宽 | 640GB/秒 | 864 GB/秒 | 576 GB/秒 | 512GB/秒 | 512GB/秒 | 1024 GB/秒 | 448 GB/秒 | 448 GB/秒 | 512GB/秒 | 484GB/秒 | 224 GB/秒 |
内存总线 | 256位 | 384位 | 256位 | 256位 | 256位 | 4096位 | 256位 | 256位 | 2048位 | 2048位 | 256位 |
计算速率(FP32) | 48 TFLOP | 61.3 TFLOP | 45.2 TFLOP | 22.23 TFLOP | 17.82 TFLOP | 13.1 TFLOP | 9.5 TFLOP | 8.89 TFLOP | 12.3 TFLOP | 10.8 TFLOP | 5.7 TFLOP |
TDP | 300瓦 | 295瓦 | 260瓦 | 300瓦 | 250瓦 | 250瓦 | 240瓦 | 205瓦 | 250瓦 | 230瓦 | 150瓦 |
价格 | 待定 | 3999美元 | 2499美元 | 5999美元 | 2249美元 | 1899美元 | 999美元 | 799美元 | 2199美元 | 999美元 | 799美元 |
发射 | 2025 | 2023 | 2023 | 2021 | 2021 | 2020 | 2019 | 2019 | 2017 | 2018 | 2016 |
发表回复