CoreWeave 在 DeepSeek R1 中实现了 NVIDIA GB300 NVL72 和 H100 的 6 倍 GPU 吞吐量比较

全新推出的 NVIDIA Blackwell AI 超级芯片 GB300 通过优化张量并行性来提供大幅增强的吞吐量性能，显著超越了其前代产品 H100 GPU。

NVIDIA GB300：增强内存和带宽，实现优于 H100 的吞吐量

NVIDIA Blackwell 驱动的 AI 超级芯片的推出标志着 GPU 技术的关键性进步。GB300 代表了 NVIDIA 迄今为止最先进的产品，展示了计算能力的显著提升，以及内存容量和带宽的提升。这些增强对于管理高要求的 AI 任务至关重要。CoreWeave 最近进行的一项基准测试展现了 GB300 的潜力——它通过减少张量并行度实现了显著更高的吞吐量。

CoreWeave 使用 DeepSeek R1 推理模型（一个复杂的 AI 框架）进行的测试中，两个平台之间出现了显著的差异。运行 DeepSeek R1 模型需要 16 个 NVIDIA H100 GPU 集群，而只需在 NVIDIA GB300 NVL72 基础架构上运行 4 个 GB300 GPU 即可完成相同的任务。值得注意的是，GB300 系统能够提供 6 倍于 H100 的单 GPU 原始吞吐量，这凸显了其在复杂 AI 工作负载下相比 H100 的卓越性能。

基准图表：4x GB300 GPU 的吞吐量比 16x H100 GPU 高出 6.5 倍令牌/秒。 — 图片来源：CoreWeave

研究结果表明，GB300 具有显著优势，它采用了简化的 4 路张量并行配置。并行度的降低增强了 GPU 间的通信，而卓越的内存容量和带宽则有助于显著提升性能。GB300 NVL72 平台受益于高带宽 NVLink 和 NVSwitch 互连，从而促进了 GPU 之间的快速数据交换。

这项技术进步为用户带来了实实在在的益处，能够加快令牌生成速度并降低延迟，从而更有效地在企业环境中扩展 AI 运营。CoreWeave 重点介绍了 NVIDIA GB300 NVL72 机架级系统的卓越规格，该系统拥有惊人的 37 TB 内存容量（最高可支持 40 TB），非常适合管理大型复杂的 AI 模型，其互连功能可实现高达 130 TB/s 的内存带宽。

NVIDIA GB300 NVL72 规格：GPU、CPU、内存带宽、张量核心性能。

最终，NVIDIA GB300 不仅仅提供令人印象深刻的 TFLOP，它更注重运行效率。通过最小化张量并行，GB300 降低了 GPU 之间的通信开销，而通信开销通常会阻碍大规模 AI 训练和推理过程。因此，企业现在可以用更少的 GPU 实现显著更高的吞吐量，从而降低成本并提高 AI 实施的可扩展性。

新闻来源：CoreWeave

来源和图片