NVIDIA 以 Blackwell GPU 和 Meta 的 Llama 4 Maverick 突破 1,000 TPS 障礙,創下令牌速度紀錄

NVIDIA 以 Blackwell GPU 和 Meta 的 Llama 4 Maverick 突破 1,000 TPS 障礙,創下令牌速度紀錄

NVIDIA透過推出Blackwell架構,在人工智慧(AI)效能方面取得了重大突破。這項創新很大程度上歸功於一系列戰略優化和硬體能力的增強。

Blackwell 的進展:提升大規模語言模型的 AI 效能

NVIDIA 不斷突破 AI 的界限,憑藉其 Blackwell 技術取得了顯著進步。該公司在最近的一篇部落格文章中宣布,他們使用配備八個 NVIDIA Blackwell GPU 的單一 DGX B200 節點已經達到了每秒 1, 000 個令牌(TP/S)的令人印象深刻的里程碑。這項成果是在與 Meta 龐大的 4000 億參數 Llama 4 Maverick 模型合作時取得的,展示了 NVIDIA 的 AI 生態系統對產業的深遠影響。

NVIDIA Blackwell 架構

憑藉此先進配置,NVIDIA 的 Blackwell 伺服器可提供高達驚人的 72, 000 TP/s。正如執行長黃仁勳在 Computex 主題演講中所強調的那樣,各組織現在比以往任何時候都更有動力展示其人工智慧進步,特別是在代幣輸出率方面。這一趨勢表明 NVIDIA 堅定致力於加強 AI 開發的這一特定方面。

要實現如此突破性的速度需要進行大量的軟體最佳化,特別是透過 TensorRT-LLM 和創新的推測解碼模型,從而使效能提高了四倍。 NVIDIA 團隊深入研究了有助於對 Blackwell 進行微調以適應大型語言模型 (LLM) 的各種元素。一個關鍵的創新是使用推測解碼,這種方法採用靈活的「草稿」模型來預測未來的幾個標記,而主要(更大)模型同時驗證這些預測。

推測解碼是一種流行的技術,用於加速 LLM 的推理速度,同時不影響生成文本的品質。它透過讓更小、更快的「草稿」模型預測一系列推測標記來實現這一目標,然後由更大的「目標」LLM 並行驗證這些標記。

加速來自於在一次目標模型迭代中產生潛在的多個標記,但代價是額外的草稿模型開銷。

– NVIDIA

此外,NVIDIA 還實施了基於 EAGLE3 的架構,這是一個以軟體為中心的框架,專門設計用於增強大型語言模型的推理過程,而不是純粹依賴 GPU 硬體的進步。透過這些發展,NVIDIA 不僅確立了其在 AI 領域的領導地位,還將 Blackwell 定位為 Llama 4 Maverick 等知名 LLM 的最佳化解決方案。這個里程碑代表著朝著未來實現更快速、更無縫的人工智慧互動邁出了關鍵的一步。

來源和圖片

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *