美国推出 GPT-OSS：现代开源模型的首创——与中国的替代方案相比如何？

最近，OpenAI 迈出了重要一步，推出了开放权重模型，这在主要由中国领先的人工智能公司主导的市场中是一个引人注目的举措。

OpenAI 开放权重模型在关键领域超越中国同行

美国科技公司开始采用中国同行早已沿用的技术策略，尤其是在将开源框架与大型语言模型（LLM）相结合方面。这一转变与前总统特朗普的人工智能行动计划中阐明的优先事项相符，该计划强调了开源人工智能模型的重要性。因此，OpenAI 推出了 gpt-oss 系列，这是自 GPT-2 以来的首批开源模型，提供两种配置：gpt-oss-20b 和 gpt-oss-120b。

纵观这些新模型的技术规格，GPT-OSS-20B 拥有令人印象深刻的 210 亿个参数，并采用了混合专家 (MoE) Transformer 架构。它还提供了高达 131, 072 个 token 的上下文窗口，使其与 16GB VRAM 平台兼容，能够在大多数消费级 GPU 上高效运行。相比之下，更大的 GPT-OSS-120B 拥有强大的 1170 亿个参数，在推理任务中表现出色，但需要更强大的 NVIDIA H100 平台才能实现最佳性能。

值得注意的是，这些模型遵循 Apache 2.0 许可证，该许可证允许商业使用、修改和重新分发。这种开源特性使其与中国的同类模型定位相似。OpenAI 进军该领域，似乎正战略性地响应中国人工智能公司多年来发展开源生态系统所取得的进步。除了 Meta 的 LLaMA 之外，美国迄今为止在主流开源模型方面几乎没有任何进展。

随着 OpenAI 进军开放权重模型，人们对未来的版本充满期待。将 gpt-oss 与中国其他同类模型进行比较后发现，虽然 OpenAI 取得了令人瞩目的进步，但中国模型的参数数量通常更高。例如，像 DeepSeek V2 和 Qwen 3 这样的知名模型就拥有显著更大的参数数量：

类别	GPT‑OSS 120B/20B	DeepSeek-V2 / R1	Qwen3 / Qwen2.5 / QwQ
组织	OpenAI	DeepSeek（中国）	阿里巴巴（中国）
模型类型	稀疏 MoE（专家混合）	稀疏 MoE	密集型和 MoE 混合型
总参数	120B/20B	236B / 67B	235B / 72B / 32B / 其他
活动参数	约51亿/约36亿	约210亿/约67亿	~22B (Qwen3-235B) / ~3B (Qwen3-30B-A3B)
上下文窗口	128K代币	128K代币	128K（Qwen3），32K（Qwen2.5）

虽然总参数数量和活跃参数数量很重要，但它们并非决定模型优劣的唯一因素。尽管如此，中国同行仍然拥有相当大的优势，这主要归功于他们多年的经验。为了评估他们的实时性能，我们比较了包括MMLU（大规模多任务语言理解）和AIME Math在内的各种基准测试。这些评估由Clarifai进行，并揭示了值得关注的见解：

基准任务	GPT‑OSS‑120B	GLM-4.5	Qwen-3 思考	DeepSeek R1	像 K2
MMLU‑Pro（推理）	~90.0%	84.6%	84.4%	85.0%	81.1%
AIME 数学（含工具）	~96.6–97.9%	~91%	~92.3%	~87.5%	~49–69%
GPQA（科学博士）	~80.9%	79.1%	81.1%	81.0%	75.1%
SWE‑bench（编码）	62.4%	64.2%	—	~65.8%	~65.8%
TAU 替补席（特工）	~67.8%	79.7%	~67.8%	~63.9%	~70.6%
BFCL‑v3（函数调用）	约67–68％	77.8%	71.9%	37%	—

测试结果清晰地表明，GPT-OSS 在推理和数学任务方面表现出色，使其成为同类产品中一个强大的竞争对手。此外，与许多密集模型相比，它的活跃参数占用空间更小，对于寻求本地 AI 解决方案的用户来说，它是一个更经济的选择。然而，基准测试表明，在代理任务和多语言能力方面，GPT-OSS-120B 模型仍然落后于一些中国同类产品，但它仍然是市场上一个强有力的竞争者。

开放权重模型的出现对人工智能行业至关重要，因为它们能够构建更具包容性的生态系统。OpenAI 凭借这一举措，有望增强美国在此前由中国机构主导的领域的影响力。这一里程碑很可能会让 Sam Altman 和 OpenAI 团队在竞争激烈的环境中感到满意。

来源和图片