AMD Instinct MI350 GPU:凭借 3nm 3D 小芯片、CDNA 4 架构、1850 亿个晶体管、1400W TBP 和 288GB 内存释放 AI 威力,支持超过 4000B LLM

AMD Instinct MI350 GPU:凭借 3nm 3D 小芯片、CDNA 4 架构、1850 亿个晶体管、1400W TBP 和 288GB 内存释放 AI 威力,支持超过 4000B LLM

在 2025 年 Hot Chips 大会上,AMD 全面披露了其最新 Instinct MI350 AI 加速器的细节,该加速器基于创新的 CDNA 4 架构。此次发布距离 MI350 系列首次发布仅两个月,该系列专为高要求的 AI 工作负载而设计。

AMD 在 2025 年 Hot Chips 大会上发布 Instinct MI350 架构洞察,助力拓展法学硕士课程

AMD Instinct MI350 GPU 在 Hot Chips 2025 上展出。

MI350系列顺应了大型语言模型(LLM)的指数级增长,推动了数据格式和芯片内存容量的提升。通过突破这些领域的界限,AMD显著提升了AI处理的性能和效率。

大型人工智能模型的趋势:参数数量、上下文长度、代理人工智能处理的增长

CDNA-4 架构的增强功能显著提升了高带宽内存 (HBM) 的容量和带宽,从而能够更快地在更广泛的模型中进行 AI 训练和推理。这些芯片显著提升了链路速度,实现了更佳的能效和整体性能。

生成式人工智能需求:GPU 内存、带宽、ALU、功率效率、大规模模型训练。

这种新架构通过优化功率传输并增强Infinity Fabric的连接性,实现了更快的处理速度,从而提高了运行期间的带宽效率。它还支持各种低精度数据格式,例如FP8以及行业标准的微尺度MXFP6和MXFP4类型。

MI350系列型号及规格

AMD MI350 系列主要包括 MI350X,采用风冷设计,总板载功率 (TBP) 为 1000W,峰值时钟速度为 2.2 GHz。高端产品 MI355X 专为液冷数据中心量身定制,TBP 为 1400W,最高时钟速度为 2.4 GHz。

AMD Instinct MI350 GPU 规格:185B 晶体管和先进的 3D 芯片设计。

这些令人印象深刻的规格源于 AMD 深厚的工程专业知识,其精妙设计在 3D 多芯片配置中集成了 1850 亿个晶体管。这包括先进的 HBM3e 内存,并采用 3nm 和 6nm 制程技术,以优化成本效益和性能。

AMD Instinct MI350 小芯片架构图。

架构分解和功能

架构细节显示,每个 MI350 封装共采用八个加速器复合芯片 (XCD),采用台积电领先的 3nm 技术打造。每个芯片通过强大的基础设施连接,旨在实现最大吞吐量。

每个 I/O 基座芯片均采用更成熟的 6nm 工艺,确保更高的良率和成本效益。该芯片配置通过八个 HBM3e 通道实现高效的内存处理,为整个加速器提供高达 288 GB 的内存容量。

AMD Instinct MI350 GPU 芯片图。

此外,内存子系统支持多种配置,以有效增强计算能力。这包括全面的内部内存架构和缓存分层,旨在最大限度地提高数据密集型操作的性能。

绩效指标和竞争优势

在原始计算能力方面,MI350 系列与其前代产品相比取得了显著的进步,展示了高达 20 PFLOP 的 FP4/FP6 计算能力——得益于 HBM3e 技术的进步和相关的缓存改进,性能提高了四倍。

AMD Instinct MI350 GPU 性能相比竞争对手有所提升。

AMD 表示,Instinct MI350 系列将于 2025 年第三季度开始通过多个分销合作伙伴发售。未来的发展也即将到来,MI400 系列预计将于 2026 年推出。

AMD Instinct AI 加速器比较:

加速器名称 AMD Instinct MI500 AMD Instinct MI400 AMD Instinct MI350X AMD Instinct MI325X AMD Instinct MI300X AMD Instinct MI250X
GPU架构 CDNA Next/UDNA CDNA Next/UDNA 互补DNA 4 Aqua Vanjaram(CDNA 3) Aqua Vanjaram(CDNA 3) 毕宿五(CDNA 2)
GPU 处理节点 待定 待定 3纳米 5纳米+6纳米 5纳米+6纳米 6纳米
XCD(小芯片) 待定 8(MCM) 8(MCM) 8(MCM) 8(MCM) 2 (MCM),1 (每个芯片)
GPU核心 待定 待定 16, 384 19, 456 19, 456 14, 080
最大时钟速度 待定 待定 2400兆赫 2100兆赫 2100兆赫 1700兆赫
INT8 计算 待定 待定 5200 TOPS 2614 件 2614 件 383 TOP
FP6/FP4矩阵 待定 40 PFLOP 20 PFLOP 不适用 不适用 不适用
FP8矩阵 待定 20 PFLOP 5 PFLOP 2.6 PFLOPs 2.6 PFLOPs 不适用
FP16矩阵 待定 10 PFLOP 2.5 PFLOP 1.3 PFLOP 1.3 PFLOP 383 TFLOP
FP32向量 待定 待定 157.3 TFLOP 163.4 TFLOP 163.4 TFLOP 95.7 TFLOP
FP64向量 待定 待定 78.6 TFLOP 81.7 TFLOP 81.7 TFLOP 47.9 TFLOP
显存 待定 432GB HBM4 288 GB HBM3e 256 GB HBM3e 192GB HBM3 128 GB HBM2e
无限缓存 待定 待定 256 MB 256 MB 256 MB 不适用
内存时钟 待定 19.6 TB/秒 8.0 Gbps 5.9 Gbps 5.2 Gbps 3.2 Gbps
内存总线 待定 待定 8192位 8192位 8192位 8192位
内存带宽 待定 待定 8TB/秒 6.0 TB/秒 5.3 TB/秒 3.2 TB/秒
外形尺寸 待定 待定 运营管理 运营管理 运营管理 运营管理
冷却 待定 待定 被动/液体 被动冷却 被动冷却 被动冷却
TDP(最大) 待定 待定 1400瓦(355X) 1000瓦 750瓦 560瓦

欲了解更多详情,请访问来源

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注