美國推出 GPT-OSS:現代開源模型的首創—與中國的替代方案相比如何?

美國推出 GPT-OSS:現代開源模型的首創—與中國的替代方案相比如何?

最近,OpenAI 邁出了重要一步,推出了開放權重模型,這在主要由中國領先的人工智慧公司主導的市場中是一個引人注目的舉措。

OpenAI 開放權重模式在關鍵領域超越中國同行

美國科技公司開始採用中國同業早已沿用的技術策略,尤其是將開源框架與大型語言模型(LLM)結合方面。這一轉變與前總統川普的人工智慧行動計畫中闡明的優先事項相符,該計畫強調了開源人工智慧模式的重要性。因此,OpenAI 推出了 gpt-oss 系列,這是自 GPT-2 以來的首批開源模型,提供兩種配置:gpt-oss-20b 和 gpt-oss-120b。

綜觀這些新模型的技術規格,GPT-OSS-20B 擁有令人印象深刻的 210 億個參數,並採用了混合專家 (MoE) Transformer 架構。它還提供了高達 131, 072 個 token 的上下文窗口,使其與 16GB VRAM 平台兼容,能夠在大多數消費級 GPU 上高效運行。相較之下,較大的 GPT-OSS-120B 擁有強大的 1, 170 億個參數,在推理任務中表現出色,但需要更強大的 NVIDIA H100 平台才能達到最佳效能。

OpenAI 籌集 83 億美元資金
圖片來源:OpenAI

值得注意的是,這些模型遵循 Apache 2.0 許可證,該許可證允許商業使用、修改和重新分發。這種開源特性使其與中國的同類模型定位相似。 OpenAI 進軍該領域,似乎正策略性地響應中國人工智慧公司多年來發展開源生態系統所取得的進步。除了 Meta 的 LLaMA 之外,美國迄今為止在主流開源模型方面幾乎沒有任何進展。

隨著 OpenAI 進軍開放權重模型,人們對未來的版本充滿期待。將 gpt-oss 與中國其他同類模型進行比較後發現,雖然 OpenAI 取得了令人矚目的進步,但中國模型的參數數量通常更高。例如,像 DeepSeek V2 和 Qwen 3 這樣的知名模型就擁有顯著更大的參數數量:

類別 GPT‑OSS 120B/20B DeepSeek-V2 / R1 Qwen3 / Qwen2.5 / QwQ
組織 OpenAI DeepSeek(中國) 阿里巴巴(中國)
模型類型 稀疏 MoE(專家混合) 稀疏 MoE 密集型和 MoE 混合型
總參數 120B/20B 236B / 67B 235B / 72B / 32B / 其他
活動參數 約51億/約36億 約210億/約67億 ~22B (Qwen3-235B) / ~3B (Qwen3-30B-A3B)
上下文視窗 128K代幣 128K代幣 128K(Qwen3),32K(Qwen2.5)

雖然總參數數量和活躍參數數量很重要,但它們並非決定模型優劣的唯一因素。儘管如此,中國同行仍然擁有相當大的優勢,這主要歸功於他們多年的經驗。為了評估他們的即時效能,我們比較了包括MMLU(大規模多任務語言理解)和AIME Math在內的各種基準測試。這些評估由Clarifai進行,並揭示了值得關注的見解:

基準任務 GPT‑OSS‑120B GLM-4.5 Qwen-3 思考 DeepSeek R1 像 K2
MMLU‑Pro(推理) ~90.0% 84.6% 84.4% 85.0% 81.1%
AIME 數學(含工具) ~96.6–97.9% ~91% ~92.3% ~87.5% ~49–69%
GPQA(科學博士) ~80.9% 79.1% 81.1% 81.0% 75.1%
SWE‑bench(編碼) 62.4% 64.2% ~65.8% ~65.8%
TAU 替補席(特務) ~67.8% 79.7% ~67.8% ~63.9% ~70.6%
BFCL‑v3(函數呼叫) 約67–68% 77.8% 71.9% 37%

測試結果清晰地表明,GPT-OSS 在推理和數學任務方面表現出色,使其成為同類產品中一個強大的競爭對手。此外,與許多密集模型相比,它的活躍參數佔用空間更小,對於尋求本地 AI 解決方案的用戶來說,它是一個更經濟的選擇。然而,基準測試表明,在代理任務和多語言能力方面,GPT-OSS-120B 模型仍然落後於一些中國同類產品,但它仍然是市場上一個強有力的競爭者。

開放權重模型的出現對人工智慧產業至關重要,因為它們能夠建立更具包容性的生態系統。 OpenAI 憑藉這一舉措,有望增強美國在先前由中國機構主導的領域的影響力。這個里程碑很可能會讓 Sam Altman 和 OpenAI 團隊在競爭激烈的環境中感到滿意。

來源和圖片

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *