Outbyte PC Repair

Apple 和 NVIDIA 合作開發「ReDrafter」技術,使用大型語言模型更快產生文本

Apple 和 NVIDIA 合作開發「ReDrafter」技術,使用大型語言模型更快產生文本

蘋果在生成式 AI 領域走了一條獨特的道路,選擇將其專有晶片用於基於雲端的應用程序,而不是依賴 NVIDIA GPU。隨著即將推出的 M4 Ultra 晶片的推出,這項戰略決策預計將得到發展,該晶片旨在增強大型語言模型 (LLM) 的處理能力。然而,最近,蘋果表示願意與 NVIDIA 合作,利用法學碩士加速文本生成過程,展示了兩家科技巨頭之間的協同潛力。

隆重介紹「ReDrafter」:文本生成領域的遊戲規則改變者

Apple 最近推出了一項名為「ReDrafter」(Recurrent Drafter 的縮寫)的創新技術,該技術為文字生成技術樹立了新的基準。該方法巧妙地整合了兩種不同的方法:束搜尋和樹注意。這兩種策略都是為了提高生成文字的表現而設計的。經過廣泛的內部研究,Apple 與 NVIDIA 合作,將 ReDrafter 嵌入到 TensorRT-LLM 框架中,這是一款經過最佳化的複雜工具,可加速在 NVIDIA 硬體上運行的 LLM 的效能。

重要的是,ReDrafter 的設計不僅是為了提高速度,還旨在減少操作延遲,同時消耗更少的能源——這是當今技術領域日益關鍵的因素。

「這項研究工作展示了強有力的成果,但其更大的影響來自於在生產中的應用,以加速 LLM 推理。為了讓這項進步為 NVIDIA GPU 做好生產準備,我們與 NVIDIA 合作,將 ReDrafter 整合到 NVIDIA TensorRT-LLM 推理加速框架中。

儘管 TensorRT-LLM 支援眾多開源 LLM 和 Medusa 推測解碼方法,但 ReDrafter 的波束搜尋和樹注意演算法依賴於以前的應用程式中從未使用過的運算符。為了實現 ReDrafter 的集成,NVIDIA 增加了新的運算子或公開了現有的運算符,這大大提高了 TensorRT-LLM 適應複雜模型和解碼方法的能力。使用 NVIDIA GPU 的 ML 開發人員現在可以輕鬆受益於 ReDrafter 的加速令牌生成,以使用 TensorRT-LLM 為其生產 LLM 應用程式。

在 NVIDIA GPU 上對數百億個參數生產模型進行基準測試時,使用 NVIDIA TensorRT-LLM 推理加速框架和 ReDrafter,我們發現每秒生成的貪婪解碼令牌速度提高了 2.7 倍。這些基準測試結果表明,這項技術可以顯著減少用戶可能遇到的延遲,同時使用更少的 GPU 並消耗更少的電量。

此次合作標誌著 Apple 和 NVIDIA 之間潛在的、儘管脆弱的聯盟,讓人想起科技公司在共同利益驅動下經常建立的合作關係。然而,兩家公司之間長期存在的緊張關係使人們對持續正式合作關係的可能性產生了懷疑。雖然像這樣的臨時合作可能會重新出現,但長期聯盟的前景似乎不太可能。

有關更多詳細信息,請瀏覽 Apple 發布的原始新聞稿:Apple 官方部落格

此外,您還可以在這篇綜合文章中找到見解:Wccftech’s Coverage

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *