マイクロソフトが Phi-4 マルチモーダルと Phi-4 Mini 小型言語モデルを発表

マイクロソフトが Phi-4 マルチモーダルと Phi-4 Mini 小型言語モデルを発表

マイクロソフトが Phi-4 ファミリーを発表: 言語モデル技術の飛躍

2024 年 12 月、マイクロソフトは、この分野で新たなベンチマークとなる最先端の小規模言語モデル (SLM) である Phi-4 をリリースしました。この成功を基に、同社は現在、Phi-4 ファミリーの機能を拡張する Phi-4-multimodal と Phi-4-mini という 2 つの追加モデルを導入しています。

Phi-4モデルの多様な機能

Phi-4 マルチモーダル モデルは、音声、視覚、テキスト処理を単一の統合フレームワーク内でシームレスに統合しているため、特に注目に値します。56 億のパラメーターという驚異的なスケールを備え、Microsoft 初のマルチモーダル言語モデルとして際立っています。このモデルは柔軟性を高めるだけでなく、さまざまなベンチマークで Google の Gemini 2.0 Flash や Gemini 2.0 Flash Lite などの主要競合製品を大幅に上回ります。

マイクロソフト

音声認識の卓越性

音声認識の分野では、Phi-4-multimodal は WhisperV3 や SeamlessM4T-v2-Large などの専用モデルよりも優れています。Hugging Face OpenASR リーダーボードでトップの座を獲得し、わずか 6.14% という驚異的な単語エラー率を達成しました。これにより、自動音声認識 (ASR) および音声翻訳 (ST) タスクの主要ソリューションとしての地位を確立しました。

マイクロソフト

視覚タスクにおける優れたパフォーマンス

さらに、このモデルは視覚中心のタスク、特に数学的推論や科学的分析などの分野で強力なパフォーマンスを発揮します。文書、視覚チャート、光学式文字認識 (OCR)、視覚的推論を理解する能力は、Gemini-2-Flash-lite-preview や Claude-3.5-Sonnet などの確立されたモデルと同等か、それを上回ります。

Phi-4-mini: ターゲットテキスト機能

一方、38 億のパラメータを持つ Phi-4-mini は、テキストベースのタスクで優れたパフォーマンスを発揮します。推論、数学、コーディングの課題、命令の追跡、関数の呼び出しを効果的に処理し、多くの場合、より大規模なモデルよりも優れたパフォーマンスを発揮します。

セキュリティと導入の利点

安全性とセキュリティに関する懸念に対処するため、Microsoft は、Microsoft AI Red Team (AIRT) の戦略に沿って、社内外のセキュリティ専門家の知見を活用し、これらのモデルを厳密にテストしました。Phi-4-multimodal と Phi-4-mini はどちらもデバイス上での展開用に設計されており、クロスプラットフォームの互換性を強化するために ONNX ランタイムを使用してさらに最適化されています。この機能により、コスト効率が高く、レイテンシの低いアプリケーションに最適です。

開発者向けの可用性

開発者は、Azure AI Foundry、Hugging Face、NVIDIA API Catalog などのプラットフォームを通じて、Phi-4-multimodal および Phi-4-mini モデルにアクセスできるようになりました。これらのイノベーションは、効率的な人工知能の大きな飛躍を表しており、開発者がさまざまな AI アプリケーションで強力なマルチモーダルおよびテキストベースの機能を活用できるようになります。

出典と画像

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です