
微軟推出 Phi-4-Reasoning:語言模式的突破
在人工智慧的一個令人興奮的發展中,微軟推出了Phi-4-reasoning,這是一個 140 億參數模型,旨在以令人印象深刻的效率處理複雜的推理任務。這個創新模型是使用監督微調創建的,該微調是在 o3-mini 的幫助下生成的一組專門策劃的「可教」提示上進行的,以確保訓練資料的高品質和相關性。
除此之外,該公司還推出了Phi-4-reasoning-plus,該變體不僅保留了 14B 參數設計,而且透過產生更長的推理軌跡增強了推理能力,從而提供了改進的性能基準。
績效指標:競爭優勢
根據微軟最近的白皮書中詳細列出的調查結果,Phi-4 推理模型與包括著名的DeepSeek-R1-Distill-Llama-70B在內的幾個更大的模型相比表現出了更優異的性能。值得注意的是,這些模型甚至在特定基準上與DeepSeek-R1模型的全部功能相符。此外,除了 GPQA 和日曆規劃之外,它們在幾乎所有任務中的表現都優於Anthropic 的Claude 3.7 Sonnet和 Google 的Gemini 2 Flash Thinking 。

模型開發和限制的見解
Phi-4 推理模型的出色表現強化了這樣一種觀點:監督微調 (SFT) 的細緻資料管理可以顯著增強推理語言模型的能力。此外,透過實施強化學習技術,有可能提高表現。
然而,Phi-4 推理模型確實存在某些限制。它主要針對英文文本進行定制,主要在 Python 上進行訓練,利用標準編碼庫。此外,它的上下文長度限制為 32, 000 個標記。為了更深入了解其功能和限制,讀者可以參考白皮書。
引入 Phi-4-reasoning,為 Phi 系列 SLM 添加推理模型。該模型採用監督微調(使用精心策劃的推理演示資料集)和強化學習進行訓練。 📌推理基準測試中的競爭結果… pic.twitter.com/p2FkjD4qfu
對人工智慧發展的影響
微軟將 Phi-4 推理模型視為推進語言模型研究的關鍵工具。預計它們在記憶體或計算資源有限的環境、高延遲要求的場景以及需要密集推理的任務中將特別有益。
如需更多資訊和見解,請造訪原始來源:來源和圖像。
發佈留言