微软推出 Phi-4 多模态和 Phi-4 Mini 小型语言模型

微软推出 Phi-4 多模态和 Phi-4 Mini 小型语言模型

微软发布Phi-4系列:语言模型技术的飞跃

2024 年 12 月,微软推出了 Phi-4,这是一款尖端的小型语言模型 (SLM),为同类产品树立了新的标杆。在此成功的基础上,该公司现在又推出了两款型号:Phi-4-multimodal 和 Phi-4-mini,扩展了 Phi-4 系列的功能。

Phi-4 型号的多样化功能

Phi-4-多模态模型尤其值得一提,因为它在一个统一的框架内无缝集成了语音、视觉和文本处理。它拥有 56 亿个参数,是微软首个多模态语言模型。该模型不仅提高了灵活性,而且在各种基准测试中都明显优于谷歌的 Gemini 2.0 Flash 和 Gemini 2.0 Flash Lite 等领先竞争对手。

微软

语音识别卓越

在语音识别领域,Phi-4-multimodal 的表现超越了 WhisperV3 和 SeamlessM4T-v2-Large 等专业模型。它在 Hugging Face OpenASR 排行榜上名列前茅,实现了仅 6.14% 的惊人单词错误率。这使其成为自动语音识别 (ASR) 和语音翻译 (ST) 任务的领先解决方案。

微软

视觉任务表现优异

此外,该模型在以视觉为中心的任务中表现出色,特别是在数学推理和科学分析等领域。其在理解文档、视觉图表、光学字符识别 (OCR) 和视觉推理方面的能力与 Gemini-2-Flash-lite-preview 和 Claude-3.5-Sonnet 等成熟模型相当或超过它们。

Phi-4-mini:目标文本功能

另一方面,拥有 38 亿个参数的 Phi-4-mini 在基于文本的任务中表现出色。它有效地处理推理、数学、编码挑战、指令跟踪和函数调用,通常比更大的模型表现更好。

安全和部署优势

为了解决安全问题,微软确保对这些模型进行严格测试,并参考了内部和外部安全专家的见解,并由微软人工智能红队 (AIRT) 的策略指导。Phi-4-multimodal 和 Phi-4-mini 均专为设备部署而设计,并使用 ONNX Runtime 进一步优化以增强跨平台兼容性。此功能使它们成为经济高效且低延迟应用程序的理想选择。

面向开发人员的可用性

开发人员现在可以通过 Azure AI Foundry、Hugging Face 和 NVIDIA API Catalog 等平台访问 Phi-4-multimodal 和 Phi-4-mini 模型。这些创新代表了高效人工智能的重大飞跃,使开发人员能够在各种 AI 应用程序中利用强大的多模式和基于文本的功能。

来源及图片

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注