
在 2025 年 Hot Chips 大会上,AMD 全面披露了其最新 Instinct MI350 AI 加速器的细节,该加速器基于创新的 CDNA 4 架构。此次发布距离 MI350 系列首次发布仅两个月,该系列专为高要求的 AI 工作负载而设计。
AMD 在 2025 年 Hot Chips 大会上发布 Instinct MI350 架构洞察,助力拓展法学硕士课程

MI350系列顺应了大型语言模型(LLM)的指数级增长,推动了数据格式和芯片内存容量的提升。通过突破这些领域的界限,AMD显著提升了AI处理的性能和效率。

CDNA-4 架构的增强功能显著提升了高带宽内存 (HBM) 的容量和带宽,从而能够更快地在更广泛的模型中进行 AI 训练和推理。这些芯片显著提升了链路速度,实现了更佳的能效和整体性能。

这种新架构通过优化功率传输并增强Infinity Fabric的连接性,实现了更快的处理速度,从而提高了运行期间的带宽效率。它还支持各种低精度数据格式,例如FP8以及行业标准的微尺度MXFP6和MXFP4类型。
MI350系列型号及规格
AMD MI350 系列主要包括 MI350X,采用风冷设计,总板载功率 (TBP) 为 1000W,峰值时钟速度为 2.2 GHz。高端产品 MI355X 专为液冷数据中心量身定制,TBP 为 1400W,最高时钟速度为 2.4 GHz。

这些令人印象深刻的规格源于 AMD 深厚的工程专业知识,其精妙设计在 3D 多芯片配置中集成了 1850 亿个晶体管。这包括先进的 HBM3e 内存,并采用 3nm 和 6nm 制程技术,以优化成本效益和性能。

架构分解和功能
架构细节显示,每个 MI350 封装共采用八个加速器复合芯片 (XCD),采用台积电领先的 3nm 技术打造。每个芯片通过强大的基础设施连接,旨在实现最大吞吐量。
每个 I/O 基座芯片均采用更成熟的 6nm 工艺,确保更高的良率和成本效益。该芯片配置通过八个 HBM3e 通道实现高效的内存处理,为整个加速器提供高达 288 GB 的内存容量。

此外,内存子系统支持多种配置,以有效增强计算能力。这包括全面的内部内存架构和缓存分层,旨在最大限度地提高数据密集型操作的性能。
绩效指标和竞争优势
在原始计算能力方面,MI350 系列与其前代产品相比取得了显著的进步,展示了高达 20 PFLOP 的 FP4/FP6 计算能力——得益于 HBM3e 技术的进步和相关的缓存改进,性能提高了四倍。

AMD 表示,Instinct MI350 系列将于 2025 年第三季度开始通过多个分销合作伙伴发售。未来的发展也即将到来,MI400 系列预计将于 2026 年推出。
AMD Instinct AI 加速器比较:
加速器名称 | AMD Instinct MI500 | AMD Instinct MI400 | AMD Instinct MI350X | AMD Instinct MI325X | AMD Instinct MI300X | AMD Instinct MI250X |
---|---|---|---|---|---|---|
GPU架构 | CDNA Next/UDNA | CDNA Next/UDNA | 互补DNA 4 | Aqua Vanjaram(CDNA 3) | Aqua Vanjaram(CDNA 3) | 毕宿五(CDNA 2) |
GPU 处理节点 | 待定 | 待定 | 3纳米 | 5纳米+6纳米 | 5纳米+6纳米 | 6纳米 |
XCD(小芯片) | 待定 | 8(MCM) | 8(MCM) | 8(MCM) | 8(MCM) | 2 (MCM),1 (每个芯片) |
GPU核心 | 待定 | 待定 | 16, 384 | 19, 456 | 19, 456 | 14, 080 |
最大时钟速度 | 待定 | 待定 | 2400兆赫 | 2100兆赫 | 2100兆赫 | 1700兆赫 |
INT8 计算 | 待定 | 待定 | 5200 TOPS | 2614 件 | 2614 件 | 383 TOP |
FP6/FP4矩阵 | 待定 | 40 PFLOP | 20 PFLOP | 不适用 | 不适用 | 不适用 |
FP8矩阵 | 待定 | 20 PFLOP | 5 PFLOP | 2.6 PFLOPs | 2.6 PFLOPs | 不适用 |
FP16矩阵 | 待定 | 10 PFLOP | 2.5 PFLOP | 1.3 PFLOP | 1.3 PFLOP | 383 TFLOP |
FP32向量 | 待定 | 待定 | 157.3 TFLOP | 163.4 TFLOP | 163.4 TFLOP | 95.7 TFLOP |
FP64向量 | 待定 | 待定 | 78.6 TFLOP | 81.7 TFLOP | 81.7 TFLOP | 47.9 TFLOP |
显存 | 待定 | 432GB HBM4 | 288 GB HBM3e | 256 GB HBM3e | 192GB HBM3 | 128 GB HBM2e |
无限缓存 | 待定 | 待定 | 256 MB | 256 MB | 256 MB | 不适用 |
内存时钟 | 待定 | 19.6 TB/秒 | 8.0 Gbps | 5.9 Gbps | 5.2 Gbps | 3.2 Gbps |
内存总线 | 待定 | 待定 | 8192位 | 8192位 | 8192位 | 8192位 |
内存带宽 | 待定 | 待定 | 8TB/秒 | 6.0 TB/秒 | 5.3 TB/秒 | 3.2 TB/秒 |
外形尺寸 | 待定 | 待定 | 运营管理 | 运营管理 | 运营管理 | 运营管理 |
冷却 | 待定 | 待定 | 被动/液体 | 被动冷却 | 被动冷却 | 被动冷却 |
TDP(最大) | 待定 | 待定 | 1400瓦(355X) | 1000瓦 | 750瓦 | 560瓦 |
欲了解更多详情,请访问来源。
发表回复