DeepSeek R2 AI 模型傳聞:預計比 GPT-4 成本降低 97%,全面在華為 Ascend 晶片上訓練

DeepSeek R2 AI 模型傳聞:預計比 GPT-4 成本降低 97%,全面在華為 Ascend 晶片上訓練

中國科技公司DeepSeek似乎準備很快推出其最新的人工智慧模式「DeepSeek R2」。早期細節已經浮出水面,引起了整個科技界的興趣。

DeepSeek R2:華為技術輔助的人工智慧遊戲規則改變者

DeepSeek 的首個主流人工智慧模型 R1 確立了中國在高端人工智慧領域的競爭能力,挑戰了西方公司公認的技術優勢。 R1 的發佈在美國股市引起了軒然大波,導致數十億美元的損失,同時也表明先進的人工智慧開發並不總是需要像 OpenAI 等公司所暗示的那樣投入大量預算。最近,中國媒體開始傳播有關即將推出的 R2 型號的謠言,暗示西方人工智慧領域可能再次因中國的創新進步而措手不及。

雖然圍繞 R2 模型的討論令人興奮,但必須謹慎對待這些報道,因為 DeepSeek 尚未正式確認任何細節。消息人士透露,DeepSeek R2 將採用混合專家 (MoE) 架構,這是一種增強迭代,可能將先進的門控機制與傳統的密集層相結合。預計該架構的參數數量將增加近一倍,達到驚人的 1.2 兆個參數。

DeepSeek R2 AI 模型

僅從參數數量來看,R2 就成為 OpenAI 的 GPT-4 Turbo 和Google的 Gemini 2.0 Pro 等模型的強大競爭者。然而,其財務影響也同樣重大;報告顯示,DeepSeek R2 提供的代幣處理成本將比 GPT-4 低 97.4%,定價為每百萬輸入代幣約 0.07 美元,每百萬輸出代幣約 0.27 美元。這種定價策略顯示 R2 很容易成為最具經濟可行性的人工智慧解決方案,從而重塑市場動態。

此外,值得注意的是,R2 模型預計將利用華為 Ascend 910B 晶片集群 82% 的運算資源,展現出使用 FP16 精度的 512 PetaFLOPS 的強大運算能力。這項利用內部晶片的策略選擇表明 DeepSeek 致力於整合其 AI 供應鏈和優化資源管理。

儘管圍繞 DeepSeek R2 的這些發展仍處於推測階段,但初步洞察描繪出一款可能對人工智慧領域的老牌參與者構成重大挑戰的產品。這次預期的發布很可能成為一個轉捩點,不僅影響技術進步,也影響全球市場的人工智慧經濟。

來源和圖片

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *