
Microsoft dévoile la famille Phi-4 : une avancée technologique dans le domaine des modèles de langage
En décembre 2024, Microsoft a lancé Phi-4, un modèle de langage compact (SLM) de pointe qui établit une nouvelle référence dans sa catégorie. Forte de ce succès, la société a désormais introduit deux modèles supplémentaires : Phi-4-multimodal et Phi-4-mini, élargissant les capacités de la famille Phi-4.
Fonctionnalités diverses des modèles Phi-4
Le modèle multimodal Phi-4 est particulièrement remarquable, car il intègre de manière transparente la parole, la vision et le traitement de texte dans un cadre unique et unifié. Avec une échelle impressionnante de 5, 6 milliards de paramètres, il se distingue comme le premier modèle de langage multimodal de Microsoft. Ce modèle améliore non seulement la flexibilité, mais surpasse également de manière significative les principaux concurrents tels que Gemini 2.0 Flash et Gemini 2.0 Flash Lite de Google dans divers tests de performance.

Excellence en reconnaissance vocale
Dans le domaine de la reconnaissance vocale, Phi-4-multimodal excelle au-delà des modèles spécialisés comme WhisperV3 et SeamlessM4T-v2-Large. Il a remporté la première place du classement Hugging Face OpenASR, atteignant un taux d’erreur de mots remarquable de seulement 6, 14 %.Cela en fait une solution de premier plan pour les tâches de reconnaissance vocale automatique (ASR) et de traduction vocale (ST).

Excellentes performances dans les tâches de vision
De plus, le modèle présente de solides performances dans les tâches centrées sur la vision, en particulier dans des domaines tels que le raisonnement mathématique et l’analyse scientifique. Ses capacités de compréhension de documents, de graphiques visuels, de reconnaissance optique de caractères (OCR) et de raisonnement visuel égalent ou dépassent celles de modèles établis comme Gemini-2-Flash-lite-preview et Claude-3.5-Sonnet.
Phi-4-mini : capacités de texte ciblées
En revanche, Phi-4-mini, avec ses 3, 8 milliards de paramètres, affiche des performances supérieures dans les tâches textuelles. Il gère efficacement le raisonnement, les mathématiques, les défis de codage, le suivi des instructions et l’appel de fonctions, surpassant souvent les modèles plus grands.
Avantages en termes de sécurité et de déploiement
Pour répondre aux préoccupations en matière de sécurité, Microsoft a assuré des tests rigoureux de ces modèles avec des informations provenant d’experts en sécurité internes et externes, guidés par les stratégies de la Microsoft AI Red Team (AIRT).Phi-4-multimodal et Phi-4-mini sont tous deux conçus pour un déploiement sur appareil, optimisés à l’aide d’ONNX Runtime pour améliorer la compatibilité multiplateforme. Cette fonctionnalité les rend idéaux pour les applications rentables et à faible latence.
Disponibilité pour les développeurs
Les développeurs peuvent désormais accéder aux modèles Phi-4-multimodal et Phi-4-mini via des plateformes telles qu’Azure AI Foundry, Hugging Face et le catalogue d’API NVIDIA. Ces innovations représentent un bond en avant significatif en matière d’intelligence artificielle efficace, permettant aux développeurs d’exploiter de puissantes fonctionnalités multimodales et textuelles dans diverses applications d’IA.
Laisser un commentaire ▼