微軟推出 Phi-4 多模態和 Phi-4 Mini 小型語言模型

微軟推出 Phi-4 多模態和 Phi-4 Mini 小型語言模型

微軟發布Phi-4系列:語言模型技術的飛躍

2024 年 12 月,微軟推出了 Phi-4,這是一款尖端的小語言模型 (SLM),為其類別樹立了新的標竿。在此成功的基礎上,該公司現已推出另外兩款型號:Phi-4-multimodal和Phi-4-mini,擴展了Phi-4系列的功能。

Phi-4 型號的多樣化功能

Phi-4-多模態模型尤其值得注意,因為它在單一統一框架內無縫整合了語音、視覺和文字處理。它擁有令人印象深刻的 56 億個參數規模,是微軟首個多模式語言模型。此機型不僅增強了靈活性,而且在各項基準測試中均明顯超越Google Gemini 2.0 Flash 和 Gemini 2.0 Flash Lite 等主要競爭對手。

微軟

語音辨識卓越

在語音辨識領域,Phi-4-multimodal 的表現超越了 WhisperV3 和 SeamlessM4T-v2-Large 等專業模式。它在 Hugging Face OpenASR 排行榜上名列前茅,實現了僅為 6.14% 的驚人單字錯誤率。這使其成為自動語音辨識 (ASR) 和語音翻譯 (ST) 任務的領先解決方案。

微軟

視覺任務表現優異

此外,該模型在以視覺為中心的任務中表現出強大的性能,特別是在數學推理和科學分析等領域。它在理解文件、視覺圖表、光學字元辨識(OCR)和視覺推理方面的能力達到或超越了 Gemini-2-Flash-lite-preview 和 Claude-3.5-Sonnet 等成熟模型。

Phi-4-mini:目標文字功能

另一方面,擁有 38 億個參數的 Phi-4-mini 在基於文字的任務中表現出色。它可以有效地處理推理、數學、編碼挑戰、指令追蹤和函數調用,通常比更大的模型表現更好。

安全和部署優勢

為了解決安全問題,微軟確保這些模型經過嚴格測試,並採用了內部和外部安全專家的見解,並以微軟 AI 紅隊 (AIRT) 的策略為指導。 Phi-4-multimodal 和 Phi-4-mini 皆專為裝置部署而設計,並使用 ONNX Runtime 進一步最佳化以增強跨平台相容性。這項特性使其成為經濟高效、低延遲應用的理想選擇。

面向開發人員的可用性

開發人員現在可以透過 Azure AI Foundry、Hugging Face 和 NVIDIA API Catalog 等平台存取 Phi-4-multimodal 和 Phi-4-mini 模型。這些創新代表了高效人工智慧的重大飛躍,使開發人員能夠在各種人工智慧應用中利用強大的多模式和基於文字的功能。

來源及圖片

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *