CoreWeave、DeepSeek R1でNVIDIA GB300 NVL72とH100の6倍のGPUスループットを実現

新しく発売された NVIDIA Blackwell AI スーパーチップ (GB300 と呼ばれる) は、テンソル並列処理を最適化して大幅に強化されたスループットパフォーマンスを提供することで、前身の H100 GPU を大幅に上回っています。

NVIDIA GB300: 強化されたメモリと帯域幅により、H100 を上回る優れたスループットを実現

NVIDIAのBlackwell搭載AIスーパーチップの導入は、GPUテクノロジーにおける極めて重要な進歩です。GB300はNVIDIAのこれまでで最も先進的な製品であり、演算能力の飛躍的な向上に加え、メモリ容量と帯域幅の拡張を実現しています。これらの機能強化は、要求の厳しいAIタスクを管理する上で不可欠です。CoreWeaveが実施した最近のベンチマークテストは、GB300の潜在能力を示しており、テンソル並列処理の削減により、大幅に高いスループットを実現しています。

CoreWeaveが複雑なAIフレームワークであるDeepSeek R1推論モデルを用いて実施したテストでは、2つのプラットフォームの間に顕著な違いが見られました。DeepSeek R1モデルを実行するには16基のNVIDIA H100 GPUクラスターが必要でしたが、NVIDIA GB300 NVL72インフラストラクチャ上で動作するわずか4基のGB300 GPUで同じタスクを完了できました。注目すべきは、GB300システムはGPUあたり6倍のスループットを実現しており、複雑なAIワークロードにおいてH100と比較して優れたパフォーマンスを発揮するということです。

ベンチマークチャート: 4x GB300 GPU のスループットは、16x H100 GPU のスループットを 6.5 倍トークン/秒上回ります。 — 画像クレジット: CoreWeave

調査結果は、簡素化された4ウェイテンソル並列構成を採用したGB300の大きな優位性を示しています。並列処理の削減によりGPU間通信が強化され、優れたメモリ容量と帯域幅が大幅なパフォーマンス向上に貢献します。GB300 NVL72プラットフォームは、高帯域幅のNVLinkおよびNVSwitchインターコネクトの恩恵を受け、GPU間の高速データ交換を促進します。

この技術革新は、ユーザーにとって具体的なメリットをもたらし、トークン生成の高速化とレイテンシの低減を実現することで、エンタープライズ環境におけるAI運用のより効果的なスケーリングを実現します。CoreWeaveは、NVIDIA GB300 NVL72ラックスケールシステムの優れた仕様を強調しました。このシステムは、37TBという驚異的なメモリ容量（最大40TBまでサポート可能）を誇り、大規模で複雑なAIモデルの管理に最適です。さらに、最大130TB/秒のメモリ帯域幅を実現する相互接続機能も備えています。

NVIDIA GB300 NVL72 の仕様: GPU、CPU、メモリ帯域幅、テンソルコアのパフォーマンス。

NVIDIA GB300は、単に驚異的なTFLOPSを提供するだけでなく、運用効率にも重点を置いています。テンソル並列処理を最小限に抑えることで、GB300はGPU間の通信オーバーヘッドを削減します。このオーバーヘッドは、大規模なAIトレーニングや推論プロセスの妨げとなることがよくあります。その結果、企業はより少ないGPUで大幅に高いスループットを実現できるようになり、AI実装におけるコスト削減とスケーラビリティの向上につながります。

ニュースソース: CoreWeave

出典と画像