NVIDIA Blackwell 与 AMD MI325X：最新 MLPerf 推理基准测试结果显示 B200 创下纪录，而 Instinct 与 Hopper 竞争

NVIDIA 和 AMD 最近公布了 MLPerf Inference 的最新性能指标，展示了其先进的 GPU，包括 Blackwell B200 和 Instinct MI325X。

NVIDIA Blackwell B200 和 AMD Instinct MI325X：最新 MLPerf 推理基准测试结果

新发布的 MLPerf Inference v5.0 基准测试突显了两家 GPU 巨头在芯片性能指标方面取得的重大进步。虽然原始 GPU 功能至关重要，但有效的软件优化和对新兴 AI 生态系统的全面支持也在这些结果中发挥着关键作用。

NVIDIA Blackwell 实现前所未有的性能

创新的 GB200 NVL72 系统集成了 72 个 NVIDIA Blackwell GPU，可作为单一的、广泛的 GPU 运行，与之前的 NVIDIA H200 NVL8 相比，它在 Llama 3.1 405B 基准测试中实现了高出 30 倍的吞吐量。这一非凡成就源于每个 GPU 的性能提升了三倍以上，以及NVIDIA NVLink互连域的大幅扩展。

尽管许多公司利用 MLPerf 基准来评估性能，但只有 NVIDIA 及其合作伙伴提交了与 Llama 3.1 405B 基准相关的结果。

生产推理部署经常面临延迟挑战，关键指标包括：第一个是第一个标记时间 (TTFT)，表示用户从大型语言模型收到响应需要多长时间。第二个是每个输出标记时间 (TPOT)，用于衡量将标记传递给用户的速度。

新的 Llama 2 70B Interactive 基准测试显示出显著的改进，TPOT 减少了 5 倍，TTFT 减少了 4.4 倍，表明用户体验响应速度明显提高。在此基准测试中，NVIDIA 提交的测试由配备八个 Blackwell GPU 的 NVIDIA DGX B200 系统提供支持，其性能是八 GPU H200 配置的三倍，在这项更具挑战性的 Llama 2 70B 测试中建立了高标准。

Blackwell架构的集成能力加上其优化的软件框架代表着推理性能的突破，使AI工厂能够增强智能，提高吞吐量并加快Token交付速度。

通过 NVIDIA

绿色团队 NVIDIA 再次凭借最新的 Blackwell GPU（尤其是 B200 系列）展示了其在性能方面的领先优势。配备 72 个 B200 芯片的 GB200 NVL72 机架遥遥领先，在 Llama 3.1 405B 基准测试中，其性能吞吐量比上一代 H200 高出 30 倍。此外，Llama 70B 基准测试结果证实，与 8 GPU H200 配置相比，8 GPU B200 配置的性能提高了三倍。

此外，AMD 还推出了最新的 Instinct MI325X 256 GB 加速器，采用 x8 配置。尽管 AMD 的结果与 H200 系统相当，但增强的内存容量对大型语言模型 (LLM) 大有裨益。然而，它们仍然落后于 Blackwell B200。为了保持竞争力，AMD 需要在硬件和软件产品方面保持强劲势头，尤其是随着其 Ultra 平台 B300 预计将于今年晚些时候上市。