微软:Phi-4 推理与更大模型竞争并达到 DeepSeek-R1 性能

微软:Phi-4 推理与更大模型竞争并达到 DeepSeek-R1 性能

微软推出 Phi-4-Reasoning:语言模型的突破

人工智能领域一项激动人心的进展是微软推出的Phi-4-reasoning模型,这是一个拥有 140 亿个参数的模型,旨在以惊人的效率处理复杂的推理任务。该创新模型采用监督式微调技术,对一组专门设计的“可教”提示进行训练,这些提示是在 o3-mini 的帮助下生成的,确保训练数据的高质量和相关性。

除此之外,该公司还推出了Phi-4-reasoning-plus,该变体不仅保留了 14B 参数设计,而且通过产生更长的推理轨迹增强了推理能力,从而提供了改进的性能基准。

绩效指标:竞争优势

根据微软最新白皮书中详述的研究结果,Phi-4 推理模型的性能优于多个大型模型,包括著名的DeepSeek-R1-Distill-Llama-70B 。值得注意的是,这些模型甚至在特定基准测试中完全匹敌DeepSeek-R1模型的全部功能。此外,除了 GPQA 和日历规划任务外,它们在几乎所有任务上都超越了Anthropic 的Claude 3.7 Sonnet和谷歌的Gemini 2 Flash Thinking 。

微软 Phi-4-Reasoning
微软的Phi-4推理模型

模型开发和局限性的见解

Phi-4 推理模型的出色表现进一步印证了以下观点:严谨的数据管理可以显著提升监督微调 (SFT) 推理语言模型的能力。此外,通过实施强化学习技术,模型性能也有望进一步提升。

然而,Phi-4-reasoning 模型确实存在一些限制。它主要针对英文文本,主要使用 Python 进行训练,使用了标准编码库。此外,它的上下文长度有限,仅为 32, 000 个 token。如需深入了解其功能和限制,读者可以参阅白皮书

隆重推出 Phi-4-reasoning,为 Phi 系列 SLM 增添推理模型。该模型采用监督微调(使用精心挑选的推理演示数据集)和强化学习进行训练。📌推理基准测试结果极具竞争力…… pic.twitter.com/p2FkjD4qfu

对人工智能发展的影响

微软将 Phi-4 推理模型视为推进语言模型研究的关键工具。这些模型的应用预计将在内存或计算资源有限的环境、高延迟要求的场景以及需要密集推理的任务中尤为有益。

如需更多信息和见解,请访问原始来源:来源和图像

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注