微软推出 Phi-4 多模态和 Phi-4 Mini 小型语言模型

微软发布Phi-4系列：语言模型技术的飞跃

2024 年 12 月，微软推出了 Phi-4，这是一款尖端的小型语言模型 (SLM)，为同类产品树立了新的标杆。在此成功的基础上，该公司现在又推出了两款型号：Phi-4-multimodal 和 Phi-4-mini，扩展了 Phi-4 系列的功能。

Phi-4 型号的多样化功能

Phi-4-多模态模型尤其值得一提，因为它在一个统一的框架内无缝集成了语音、视觉和文本处理。它拥有 56 亿个参数，是微软首个多模态语言模型。该模型不仅提高了灵活性，而且在各种基准测试中都明显优于谷歌的 Gemini 2.0 Flash 和 Gemini 2.0 Flash Lite 等领先竞争对手。

语音识别卓越

在语音识别领域，Phi-4-multimodal 的表现超越了 WhisperV3 和 SeamlessM4T-v2-Large 等专业模型。它在 Hugging Face OpenASR 排行榜上名列前茅，实现了仅 6.14% 的惊人单词错误率。这使其成为自动语音识别 (ASR) 和语音翻译 (ST) 任务的领先解决方案。

视觉任务表现优异

此外，该模型在以视觉为中心的任务中表现出色，特别是在数学推理和科学分析等领域。其在理解文档、视觉图表、光学字符识别 (OCR) 和视觉推理方面的能力与 Gemini-2-Flash-lite-preview 和 Claude-3.5-Sonnet 等成熟模型相当或超过它们。

Phi-4-mini：目标文本功能

另一方面，拥有 38 亿个参数的 Phi-4-mini 在基于文本的任务中表现出色。它有效地处理推理、数学、编码挑战、指令跟踪和函数调用，通常比更大的模型表现更好。

安全和部署优势

为了解决安全问题，微软确保对这些模型进行严格测试，并参考了内部和外部安全专家的见解，并由微软人工智能红队 (AIRT) 的策略指导。Phi-4-multimodal 和 Phi-4-mini 均专为设备部署而设计，并使用 ONNX Runtime 进一步优化以增强跨平台兼容性。此功能使它们成为经济高效且低延迟应用程序的理想选择。

面向开发人员的可用性

开发人员现在可以通过 Azure AI Foundry、Hugging Face 和 NVIDIA API Catalog 等平台访问 Phi-4-multimodal 和 Phi-4-mini 模型。这些创新代表了高效人工智能的重大飞跃，使开发人员能够在各种 AI 应用程序中利用强大的多模式和基于文本的功能。

来源及图片

微软推出 Phi-4 多模态和 Phi-4 Mini 小型语言模型

微软发布Phi-4系列：语言模型技术的飞跃

Phi-4 型号的多样化功能

语音识别卓越

视觉任务表现优异

Phi-4-mini：目标文本功能

安全和部署优势

面向开发人员的可用性

相关文章:

迪士尼梦幻光谷推出《阿格拉巴传说》重大更新

认为《任天堂明星大乱斗终极版》是 Switch 2 的理想首发游戏

发表回复取消回复▼

微软发布Phi-4系列：语言模型技术的飞跃

Phi-4 型号的多样化功能

语音识别卓越

视觉任务表现优异

Phi-4-mini：目标文本功能

安全和部署优势

面向开发人员的可用性

相关文章:

发表回复 取消回复▼

发表回复取消回复▼