NVIDIA、Team Greenのエクストリーム・コデザイン戦略により、新しいBlackwellプラットフォームでトークンコストを10分の1に削減

NVIDIA の最新の Blackwell プラットフォームは、AI 推論のトークン最適化において新たなベンチマークを確立し、トークノミクスの分野で大きな成果を上げました。

NVIDIAのGB200 NVL72は、10倍強化されたトークノミクスでホッパーを凌駕し、「エキスパートレベル」の並列処理を実現

AI技術の急速な発展に伴い、NVIDIAはハードウェアの効率向上を最優先課題としてきました。Blackwellでトレーニングされた最先端のAIモデルの導入により、トークン出力と関連コストの顕著な向上が明らかになりました。NVIDIAは先日、Blackwellのパフォーマンスを従来のHopper世代と比較して10倍向上させるため、様々な企業と連携した取り組みについて発表しました。

Baseten、DeepInfra、Fireworks AI、Together AIといった大手推論サービスプロバイダーは、NVIDIA Blackwellプラットフォームを活用し、NVIDIA Hopperプラットフォームと比較してトークンあたりのコストを最大10分の1に削減しています。これらの企業は、最先端の知能レベルに到達した高度なオープンソースモデルをホストしています。

これらのプロバイダーは、オープンソースの最先端のインテリジェンスと、NVIDIA Blackwell の堅牢なハードウェアとソフトウェアの共同設計、カスタマイズされた推論スタックを統合することで、さまざまな分野の企業で大幅なトークンコストの削減を促進しています。

– NVIDIA

NVIDIAは、Baseten、Sully.ai、DeepInfra、Latitudeといった組織がBlackwellを用いてトークノミクスの最適化に取り組んでいることを高く評価しました。これらの企業は、レイテンシの低減、推論コストの削減、そして信頼性の高い出力の恩恵を受けており、Blackwellは現代のAI企業にとって最適なテクノロジースタックとしての地位を確立しています。特にSentient Labsは、Hopperプラットフォームと比較して、特にマルチエージェントおよび特殊AIエージェントの展開において「25～50%のコスト効率向上」を達成したと報告しています。

この画像は、システムコストと各トークンに関連するコストを図表で比較したものです。 — 画像クレジット: NVIDIA

Blackwellアーキテクチャの成功は、NVIDIAの革新的な「エクストリーム・コデザイン」戦略によるもので、特に現代のMixture of Experts（MoE）アーキテクチャとの互換性に優れています。GB200 NVL72は、72チップ構成と30TBの高速共有メモリを搭載し、エキスパート並列処理をかつてないレベルに引き上げています。このアーキテクチャは、バッチ処理をGPU間で継続的に分割・分散することを可能にし、最適なトークノミクスを実現するための重要な要素である通信量の非線形な増加を実現します。

NVIDIAは今後、Vera Rubinプロジェクトを通じてインフラストラクチャの効率性をさらに高めることを目指しており、アーキテクチャの革新と、事前入力機能のためのCPXなどの専用ツールに重点を置いています。AI技術の急速な進化を考えると、既存のハードウェアの最適化は新しいシステムの開発と同様に重要であることを理解することが不可欠です。

出典と画像