NVIDIA 以 Blackwell GPU 和 Meta 的 Llama 4 Maverick 突破 1,000 TPS 障礙，創下令牌速度紀錄

NVIDIA透過推出Blackwell架構，在人工智慧（AI）效能方面取得了重大突破。這項創新很大程度上歸功於一系列戰略優化和硬體能力的增強。

Blackwell 的進展：提升大規模語言模型的 AI 效能

NVIDIA 不斷突破 AI 的界限，憑藉其 Blackwell 技術取得了顯著進步。該公司在最近的一篇部落格文章中宣布，他們使用配備八個 NVIDIA Blackwell GPU 的單一 DGX B200 節點已經達到了每秒 1, 000 個令牌（TP/S）的令人印象深刻的里程碑。這項成果是在與 Meta 龐大的 4000 億參數 Llama 4 Maverick 模型合作時取得的，展示了 NVIDIA 的 AI 生態系統對產業的深遠影響。

憑藉此先進配置，NVIDIA 的 Blackwell 伺服器可提供高達驚人的 72, 000 TP/s。正如執行長黃仁勳在 Computex 主題演講中所強調的那樣，各組織現在比以往任何時候都更有動力展示其人工智慧進步，特別是在代幣輸出率方面。這一趨勢表明 NVIDIA 堅定致力於加強 AI 開發的這一特定方面。

要實現如此突破性的速度需要進行大量的軟體最佳化，特別是透過 TensorRT-LLM 和創新的推測解碼模型，從而使效能提高了四倍。 NVIDIA 團隊深入研究了有助於對 Blackwell 進行微調以適應大型語言模型 (LLM) 的各種元素。一個關鍵的創新是使用推測解碼，這種方法採用靈活的「草稿」模型來預測未來的幾個標記，而主要（更大）模型同時驗證這些預測。

推測解碼是一種流行的技術，用於加速 LLM 的推理速度，同時不影響生成文本的品質。它透過讓更小、更快的「草稿」模型預測一系列推測標記來實現這一目標，然後由更大的「目標」LLM 並行驗證這些標記。

加速來自於在一次目標模型迭代中產生潛在的多個標記，但代價是額外的草稿模型開銷。

– NVIDIA

此外，NVIDIA 還實施了基於 EAGLE3 的架構，這是一個以軟體為中心的框架，專門設計用於增強大型語言模型的推理過程，而不是純粹依賴 GPU 硬體的進步。透過這些發展，NVIDIA 不僅確立了其在 AI 領域的領導地位，還將 Blackwell 定位為 Llama 4 Maverick 等知名 LLM 的最佳化解決方案。這個里程碑代表著朝著未來實現更快速、更無縫的人工智慧互動邁出了關鍵的一步。

來源和圖片