微软：Phi-4 推理与更大模型竞争并达到 DeepSeek-R1 性能

微软推出 Phi-4-Reasoning：语言模型的突破

人工智能领域一项激动人心的进展是微软推出的Phi-4-reasoning模型，这是一个拥有 140 亿个参数的模型，旨在以惊人的效率处理复杂的推理任务。该创新模型采用监督式微调技术，对一组专门设计的“可教”提示进行训练，这些提示是在 o3-mini 的帮助下生成的，确保训练数据的高质量和相关性。

除此之外，该公司还推出了Phi-4-reasoning-plus，该变体不仅保留了 14B 参数设计，而且通过产生更长的推理轨迹增强了推理能力，从而提供了改进的性能基准。

绩效指标：竞争优势

根据微软最新白皮书中详述的研究结果，Phi-4 推理模型的性能优于多个大型模型，包括著名的DeepSeek-R1-Distill-Llama-70B 。值得注意的是，这些模型甚至在特定基准测试中完全匹敌DeepSeek-R1模型的全部功能。此外，除了 GPQA 和日历规划任务外，它们在几乎所有任务上都超越了Anthropic 的Claude 3.7 Sonnet和谷歌的Gemini 2 Flash Thinking 。

模型开发和局限性的见解

Phi-4 推理模型的出色表现进一步印证了以下观点：严谨的数据管理可以显著提升监督微调 (SFT) 推理语言模型的能力。此外，通过实施强化学习技术，模型性能也有望进一步提升。

然而，Phi-4-reasoning 模型确实存在一些限制。它主要针对英文文本，主要使用 Python 进行训练，使用了标准编码库。此外，它的上下文长度有限，仅为 32, 000 个 token。如需深入了解其功能和限制，读者可以参阅白皮书。

隆重推出 Phi-4-reasoning，为 Phi 系列 SLM 增添推理模型。该模型采用监督微调（使用精心挑选的推理演示数据集）和强化学习进行训练。📌推理基准测试结果极具竞争力…… pic.twitter.com/p2FkjD4qfu

— 艾哈迈德·阿瓦达拉 (@AhmedHAwadallah) 2025 年 5 月 1 日

对人工智能发展的影响

微软将 Phi-4 推理模型视为推进语言模型研究的关键工具。这些模型的应用预计将在内存或计算资源有限的环境、高延迟要求的场景以及需要密集推理的任务中尤为有益。

如需更多信息和见解，请访问原始来源：来源和图像。

微软：Phi-4 推理与更大模型竞争并达到 DeepSeek-R1 性能

微软推出 Phi-4-Reasoning：语言模型的突破

绩效指标：竞争优势

模型开发和局限性的见解

对人工智能发展的影响

相关文章:

微软通过 DISM 和 WPF .NET 改进增强了轻量级 Windows 11 验证操作系统

微软2025财年第三季度业绩强劲，营收达701亿美元

发表回复取消回复

微软推出 Phi-4-Reasoning：语言模型的突破

绩效指标：竞争优势

模型开发和局限性的见解

对人工智能发展的影响

相关文章:

发表回复 取消回复

发表回复取消回复