
有關 DeepSeek R1 模型的訓練費用的爭論引發了巨大的市場波動,揭露了此前未被發現的一層欺騙。實際的財務影響確實比最初聲稱的更驚人。
關於 DeepSeek 培訓費用超過報道的「500 萬美元」的修訂見解
SemiAnalysis的一項全面研究挑戰了流行的說法,即 DeepSeek 的 R1 模型已大幅優化了效率,從而減少了對 NVIDIA 等提供的強大計算資源的需求。最初,產業分析師報告稱,DeepSeek 在其 R1 模式上的支出僅為「500 萬美元」——這個數字與 OpenAI 的 GPT 模型的成本相當。這項消息一經披露,立即引發了散戶的恐慌,對美國股市產生了不利影響。然而,隨著更多資訊的浮出水面,有必要對所涉及的真實成本進行更深入的審查。
客觀地說,DeepSeek 最初是中國對沖基金 High-Flyer 的子公司。據 SemiAnalysis 稱,早在 2021 年,DeepSeek 在嚴格的出口管制實施之前就收購了 10, 000 台 NVIDIA A100 GPU。在母公司決定剝離專案後,DeepSeek 迅速擴大了業務,顯著提高了其運算能力。

研究結果顯示,DeepSeek 配備了約 10, 000 顆「中國特色」的 H800 AI GPU,以及 10, 000 顆尖端的 H100 AI 晶片。此外,該組織還投資了 NVIDIA 的 H20 AI 加速器,為 DeepSeek 和 High-Flyer 的企業共享大量資源“池”,用於交易、研究、培訓和推理等活動。累計起來,DeepSeek 的資本支出估計約為 16 億美元,營運費用據傳將達到約 9.44 億美元——這個數字比之前的市場計算高出 400 倍。

值得注意的是,初始成本估算可能僅佔運行 R1 模型所涉及的總訓練成本的一小部分。值得注意的是,DeepSeek 透過在知名大學舉辦招募活動,展現了吸引本地人才的能力,入選員工的薪水超過 130 萬美元。這項策略使 DeepSeek 的開發團隊能夠設計出具有競爭力的解決方案,與 OpenAI 等產業巨頭一較高下。不幸的是,錯誤報道的財務數據為上週市場所謂的「黑天鵝事件」提供了推動力。
SemiAnalysis 對 DeepSeek 的 AI 模型進行了廣泛的評估;鼓勵讀者探索這些發現以獲得進一步的見解和複雜的細節。
發佈留言