CoreWeave 在 DeepSeek R1 中实现了 NVIDIA GB300 NVL72 和 H100 的 6 倍 GPU 吞吐量比较

CoreWeave 在 DeepSeek R1 中实现了 NVIDIA GB300 NVL72 和 H100 的 6 倍 GPU 吞吐量比较

全新推出的 NVIDIA Blackwell AI 超级芯片 GB300 通过优化张量并行性来提供大幅增强的吞吐量性能,显著超越了其前代产品 H100 GPU。

NVIDIA GB300:增强内存和带宽,实现优于 H100 的吞吐量

NVIDIA Blackwell 驱动的 AI 超级芯片的推出标志着 GPU 技术的关键性进步。GB300 代表了 NVIDIA 迄今为止最先进的产品,展示了计算能力的显著提升,以及内存容量和带宽的提升。这些增强对于管理高要求的 AI 任务至关重要。CoreWeave 最近进行的一项基准测试展现了 GB300 的潜力——它通过减少张量并行度实现了显著更高的吞吐量。

CoreWeave 使用 DeepSeek R1 推理模型(一个复杂的 AI 框架)进行的测试中,两个平台之间出现了显著的差异。运行 DeepSeek R1 模型需要 16 个 NVIDIA H100 GPU 集群,而只需在 NVIDIA GB300 NVL72 基础架构上运行 4 个 GB300 GPU 即可完成相同的任务。值得注意的是,GB300 系统能够提供 6 倍于 H100 的单 GPU 原始吞吐量,这凸显了其在复杂 AI 工作负载下相比 H100 的卓越性能。

基准图表:4x GB300 GPU 的吞吐量比 16x H100 GPU 高出 6.5 倍令牌/秒。
图片来源:CoreWeave

研究结果表明,GB300 具有显著优势,它采用了简化的 4 路张量并行配置。并行度的降低增强了 GPU 间的通信,而卓越的内存容量和带宽则有助于显著提升性能。GB300 NVL72 平台受益于高带宽 NVLink 和 NVSwitch 互连,从而促进了 GPU 之间的快速数据交换。

这项技术进步为用户带来了实实在在的益处,能够加快令牌生成速度并降低延迟,从而更有效地在企业环境中扩展 AI 运营。CoreWeave 重点介绍了 NVIDIA GB300 NVL72 机架级系统的卓越规格,该系统拥有惊人的 37 TB 内存容量(最高可支持 40 TB),非常适合管理大型复杂的 AI 模型,其互连功能可实现高达 130 TB/s 的内存带宽。

NVIDIA GB300 NVL72 规格:GPU、CPU、内存带宽、张量核心性能。

最终,NVIDIA GB300 不仅仅提供令人印象深刻的 TFLOP,它更注重运行效率。通过最小化张量并行,GB300 降低了 GPU 之间的通信开销,而通信开销通常会阻碍大规模 AI 训练和推理过程。因此,企业现在可以用更少的 GPU 实现显著更高的吞吐量,从而降低成本并提高 AI 实施的可扩展性。

新闻来源:CoreWeave

来源和图片

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注