DeepSeek R2 AI 模型传闻：预计比 GPT-4 成本降低 97%，全面在华为 Ascend 芯片上训练

中国科技公司DeepSeek似乎即将推出其最新的人工智能模型“DeepSeek R2”。早期细节已曝光，引发了科技界的广泛关注。

DeepSeek R2：华为技术助力的人工智能游戏规则改变者

DeepSeek 的首款主流 AI 模型 R1 确立了中国在高端 AI 领域的竞争能力，挑战了西方公司公认的技术霸主地位。R1 的发布在美国股市引发了轩然大波，导致数十亿美元的损失，同时也表明先进的 AI 开发并不总是需要像 OpenAI 等公司所暗示的那样投入巨额预算。最近，中国媒体开始散布即将推出的 R2 模型的传闻，暗示西方 AI 行业可能再次被中国的创新进步打个措手不及。

🚨有关 DeepSeek R2 的谣言被泄露！

1.2T 参数，78B 活动数据，混合 MoE——比 GPT 4o 便宜 97.3%（输入 0.07 美元/百万，输出 0.27 美元/百万）——5.2PB 训练数据。C-Eval2.0 上利用率为 89.7%——视觉效果更佳。COCO 上利用率为 92.4%——华为 Ascend 910B 上利用率为 82%

美国供应链大规模转移。pic.twitter.com /Jncg0PvEYU

— Deedy (@deedydas) 2025年4月26日

尽管围绕 R2 模型的讨论令人兴奋，但务必谨慎对待这些报道，因为 DeepSeek 尚未正式确认任何细节。据消息人士透露，DeepSeek R2 将采用混合专家 (MoE) 架构，这是一种增强迭代，可能将高级门控机制与传统的密集层集成在一起。该架构预计将使参数数量增加近一倍，达到惊人的 1.2 万亿个参数。

仅凭参数数量，R2 就足以与 OpenAI 的 GPT-4 Turbo 和谷歌的 Gemini 2.0 Pro 等模型一较高低。然而，其财务影响也同样巨大；报告显示，DeepSeek R2 的代币处理成本将比 GPT-4 低高达 97.4%，定价约为每百万输入代币 0.07 美元，每百万输出代币 0.27 美元。这一定价策略表明，R2 很可能成为最具经济可行性的 AI 解决方案，从而重塑市场格局。

此外，值得注意的是，R2 型号预计将利用华为 Ascend 910B 芯片集群 82% 的计算资源，展现出 FP16 精度下 512 PetaFLOPS 的强大计算能力。这一利用自研芯片的战略选择，彰显了 DeepSeek 致力于整合 AI 供应链和优化资源管理的决心。

虽然围绕 DeepSeek R2 的这些进展仍属推测，但初步洞察表明，这款产品可能对人工智能领域的老牌企业构成重大挑战。这款预期发布的产品很可能成为一个转折点，不仅会影响技术进步，还会影响全球市场的人工智能经济。

来源和图片