CoreWeave 在 DeepSeek R1 中實現了 NVIDIA GB300 NVL72 和 H100 的 6 倍 GPU 吞吐量比較

全新推出的 NVIDIA Blackwell AI 超級晶片 GB300 透過優化張量並行性來提供大幅增強的吞吐量效能，顯著超越了其前代產品 H100 GPU。

NVIDIA GB300：增強記憶體和頻寬，實現優於 H100 的吞吐量

NVIDIA Blackwell 驅動的 AI 超級晶片的推出標誌著 GPU 技術的關鍵性進步。 GB300 代表了 NVIDIA 迄今為止最先進的產品，展示了運算能力的顯著提升，以及記憶體容量和頻寬的提升。這些增強對於管理高要求的 AI 任務至關重要。 CoreWeave 最近進行的一項基準測試展現了 GB300 的潛力——它透過減少張量並行度實現了顯著更高的吞吐量。

CoreWeave 使用 DeepSeek R1 推理模型（一個複雜的 AI 框架）進行的測試中，兩個平台之間出現了顯著的差異。運行 DeepSeek R1 模型需要 16 個 NVIDIA H100 GPU 集群，而只需在 NVIDIA GB300 NVL72 基礎架構上運行 4 個 GB300 GPU 即可完成相同的任務。值得注意的是，GB300 系統能夠提供 6 倍於 H100 的單 GPU 原始吞吐量，這凸顯了其在複雜 AI 工作負載下相比 H100 的卓越性能。

基準圖表：4x GB300 GPU 的吞吐量比 16x H100 GPU 高出 6.5 倍令牌/秒。 — 圖片來源：CoreWeave

研究結果表明，GB300 具有顯著優勢，它採用了簡化的 4 路張量並行配置。並行度的降低增強了 GPU 間的通信，而卓越的記憶體容量和頻寬則有助於顯著提升效能。 GB300 NVL72 平台受益於高頻寬 NVLink 和 NVSwitch 互連，從而促進了 GPU 之間的快速資料交換。

這項技術進步為用戶帶來了實實在在的益處，能夠加快令牌生成速度並降低延遲，從而更有效地在企業環境中擴展 AI 營運。 CoreWeave 重點介紹了 NVIDIA GB300 NVL72 機架級系統的卓越規格，該系統擁有驚人的 37 TB 記憶體容量（最高可支援 40 TB），非常適合管理大型複雜的 AI 模型，其互連功能可實現高達 130 TB/s 的記憶體頻寬。

NVIDIA GB300 NVL72 規格：GPU、CPU、記憶體頻寬、張量核心效能。

最終，NVIDIA GB300 不僅僅提供令人印象深刻的 TFLOP，它更注重運作效率。透過最小化張量並行，GB300 降低了 GPU 之間的通訊開銷，而通訊開銷通常會阻礙大規模 AI 訓練和推理過程。因此，企業現在可以用更少的 GPU 實現顯著更高的吞吐量，從而降低成本並提高 AI 實施的可擴展性。

新聞來源：CoreWeave

來源和圖片