
AMD 正式推出其最新版本的开放软件堆栈技术 ROCm 7,旨在增强人工智能 (AI) 能力和开发人员的工作效率。
ROCm 7 简介:增强型开放软件创新,重点关注 AI 推理
ROCm 7 的发布标志着 AMD 对其上一版本 ROCm 6 进行了重大升级。ROCm 6 多年来获得了诸多增强,尤其是在 AI 计算兴起方面。以下是 ROCm 7 的一些关键特性,它们将改变游戏规则:
- 前沿算法与模型
- 人工智能可扩展性的强大功能
- 支持 MI350 系列
- 全面的集群管理
- 企业级功能

AMD 非常重视增强 ROCm 软件堆栈中的推理功能。全新 ROCm 7 采用了先进的框架,包括 vLLM v1、llm-d 和 SGLang。此外,它还引入了分布式推理、预填充和分解等有价值的优化,从而提升了性能和灵活性。
新集成的内核和算法包括 GEMM 自动调优、混合专家 (MoE)、注意力机制以及使用 Python 编写内核的功能。这些改进有望简化 AI 应用程序的开发流程。

此外,ROCm 7 还全面支持 FP8、FP6、FP4 以及混合精度等高级数据类型,进一步扩展了其对 MI350 系列 GPU 的功能。
性能方面,AMD 强调推理是 ROCm 7 的主要重点,并报告称 AI 工作负载的性能提升高达 3.5 倍。具体而言,与 ROCm 6 相比,这些增强功能包括 Llama 3.1 70B 性能提升高达 3.2 倍,Qwen2-72B 性能提升高达 3.4 倍,以及 Deep Seek R1 性能提升高达 3.8 倍。
发表回复