NVIDIAはAIの総所有コストの見直しを提唱し、「トークンあたりのコスト」を重要な指標として強調している。

人工知能（AI）業界がより高度な段階に達するにつれ、AIインフラストラクチャを評価するための従来の指標は時代遅れになりつつあります。これに対し、NVIDIAは「トークンあたりのコスト」という指標を導入することで、AIの総所有コスト（TCO）の理解におけるパラダイムシフトを提唱しています。

NVIDIAがトークンごとのコストでAIの総所有コストを再考

AIの分野では、トークンが最も重要な指標として浮上しています。従来のデータセンターは主に処理能力そのものに重点を置いていましたが、現代のAIインフラストラクチャ（AIファクトリーと呼ばれる）は、トークン出力に基づいて評価されます。もはや大量のトークンを生成することよりも、効率性とコスト効率の実現が重視されるようになっています。そのため、AIファクトリーにおけるTCO（総所有コスト）の概念を再考することが不可欠です。

NVIDIAは、多くの企業が依然としてチップの仕様や計算コストといった時代遅れの比較指標に依存していることを指摘し、こうした指標の見直しが不可欠だと述べている。

コンピューティングコスト：これは、クラウドプロバイダーから調達するか、オンプレミスで維持するかに関わらず、企業がAIインフラストラクチャに費やす費用を表します。
1ドルあたりのFLOPS：この指標は、企業が1ドルあたりに確保できる計算能力の量を示しますが、実際のトークン出力を正確に表すものではありません。
トークンあたりのコスト：この数値は、配布される各トークンの製造にかかる包括的なコスト分析を示しており、通常は100万トークンあたりのコストとして表されます。

「1時間あたりのGPUあたりのコスト」と「1秒あたりのGPUあたりのトークン数」に「60秒×60分」と「100万」を掛けて「100万トークンあたりのコスト」を計算する式を示すスライド。

NVIDIAは分析の中で、トークンあたりのコストを下げるのに役立ついくつかの要因を説明しています。また、100万トークンあたりのコストを計算する式を示し、多くのAI企業が主に分子（GPUあたり1時間あたりのコスト）にばかり注目し、全体のコストと収益に大きな影響を与える重要な分母を軽視していることを指摘しています。

トークンコストの最小化：トークンの発行量を増やすことで、トークンあたりのコストを削減でき、結果として処理されるすべてのインタラクションにおける利益率を高めることができます。
収益の最大化：1秒あたりのトークン配信量の増加は、1メガワットあたりのトークン数の増加につながり、AIを活用した製品やサービスの高度なインテリジェンスに貢献するとともに、既存のインフラ投資からの収益増加の可能性をもたらします。

なぜこれが重要なのか？根本的な理由は、AI企業にとって、トークンあたりのコストに注目することが、1ドルあたりのFLOPSといった単純な比較よりも重要であるという点にある。

「推論の氷山」と題された図は、チップの仕様を「1ドルあたりのFLOPS」や「トークンあたりのコスト」といった用語とともに示し、コンピューティング、メモリ、ソフトウェア設計を強調している。

NVIDIAは、Hopper GPUとBlackwell GPUの性能とコストの指標を比較し、Hopper GPUは運用コストが大幅に低く（約半分）、1ドルあたりのFLOPSも同様に2倍の差があることを明らかにした。しかし、これだけではBlackwellアーキテクチャが提供する大きな利点を十分に伝えることはできない。

トークン処理量と100万トークンあたりのコストを比較すると、真の差が明らかになります。これらの点において、BlackwellはHopperを最大65倍も上回り、100万トークンあたりのコストは驚異的な35分の1にまで抑えられています。なお、この情報はSemiAnalysisのInferenceX v2ベンチマークに基づいています。

メトリック	NVIDIA Hopper (HGX H200)	NVIDIA Blackwell (GB300 NVL72)	NVIDIA BlackwellとHopperの比較
GPU1基あたりの時間当たりのコスト（ドル）	1.41ドル	2.65ドル	2倍
1ドルあたりのFLOP数（PFLOPS）	2.8	5.6	2倍
GPUあたりのトークン/秒	90	6, 000	65倍
1秒あたりのトークン数（MWあたり）	54K	280万	50倍
100万トークンあたりのコスト（ドル）	4.20ドル	0.12ドル	35倍低い

これらの数字をNVIDIAの「CEOの都合の良い数字」と片付ける人もいるかもしれないが、その重要性を裏付ける確かな根拠が存在する。NVIDIAは強力なAIソフトウェアソリューション群を誇り、ベンチマークテストで常に優れた成績を収め、競合他社を大きく引き離している。

NVIDIAのCEOはまた、他社に対しても自社のチップをテストするよう促し、NVIDIAの製品と比較して優れた性能を示す証拠を提示するよう挑戦状を突きつけた。

「現在、世界中のどのプラットフォームも、これより優れたパフォーマンスTCO比率を証明できるところは一つもありません。どの企業もです。私は彼らにInference Maxを使って、その驚異的な推論コストを実証するよう勧めます。本当に本当に難しいことです…誰も名乗り出ようとしません。」

ジェンセン・フアン – NVIDIA CEO

NVIDIAは、AIのパフォーマンスを左右する指標を再定義することで、単にベンチマークでの勝利を主張しているだけでなく、AI関連企業にとって最も重要な指標を確立する上で極めて重要な役割を担っていると主張している。

出典と画像

NVIDIAはAIの総所有コストの見直しを提唱し、「トークンあたりのコスト」を重要な指標として強調している。

NVIDIAがトークンごとのコストでAIの総所有コストを再考

Appleは、DRAM価格の高騰を受け、2023年に2.4エクサバイトのLPDDR5メモリを使用する準備を進めている。

Google Chromeの採用に続き、Microsoft Edgeが縦型タブ機能を復活