
Microsoft stellt Phi-4-Familie vor: Ein großer Sprung in der Sprachmodell-Technologie
Im Dezember 2024 brachte Microsoft Phi-4 auf den Markt, ein hochmodernes Small Language Model (SLM), das in seiner Kategorie neue Maßstäbe setzt. Aufbauend auf diesem Erfolg hat das Unternehmen nun zwei weitere Modelle eingeführt: Phi-4-multimodal und Phi-4-mini, die die Fähigkeiten der Phi-4-Familie erweitern.
Vielfältige Funktionalität von Phi-4-Modellen
Besonders hervorzuheben ist das Phi-4-Multimodalmodell, das Sprach-, Bild- und Textverarbeitung nahtlos in einem einzigen einheitlichen Rahmen integriert. Mit einer beeindruckenden Skala von 5, 6 Milliarden Parametern ist es Microsofts erstes multimodales Sprachmodell. Dieses Modell verbessert nicht nur die Flexibilität, sondern übertrifft auch führende Konkurrenten wie Googles Gemini 2.0 Flash und Gemini 2.0 Flash Lite in verschiedenen Benchmarks deutlich.

Hervorragende Spracherkennung
Im Bereich der Spracherkennung übertrifft Phi-4-multimodal spezialisierte Modelle wie WhisperV3 und SeamlessM4T-v2-Large. Es hat sich den Spitzenplatz auf der Hugging Face OpenASR-Bestenliste gesichert und eine bemerkenswerte Wortfehlerrate von nur 6, 14 % erreicht. Dies macht es zu einer führenden Lösung für Aufgaben der automatischen Spracherkennung (ASR) und Sprachübersetzung (ST).

Starke Leistung bei Sehaufgaben
Darüber hinaus zeigt das Modell eine robuste Leistung bei visuellen Aufgaben, insbesondere in Bereichen wie mathematischem Denken und wissenschaftlicher Analyse. Seine Fähigkeiten beim Verstehen von Dokumenten, visuellen Diagrammen, optischer Zeichenerkennung (OCR) und visuellem Denken entsprechen denen etablierter Modelle wie Gemini-2-Flash-lite-preview und Claude-3.5-Sonnet oder übertreffen diese sogar.
Phi-4-mini: Zielgerichtete Textfunktionen
Andererseits zeigt Phi-4-mini mit seinen 3, 8 Milliarden Parametern eine überlegene Leistung bei textbasierten Aufgaben. Es bewältigt effektiv logisches Denken, Mathematik, Programmieraufgaben, das Befolgen von Anweisungen und das Aufrufen von Funktionen und übertrifft dabei häufig größere Modelle.
Vorteile für Sicherheit und Bereitstellung
Um Sicherheitsbedenken auszuräumen, hat Microsoft strenge Tests dieser Modelle mit Erkenntnissen von internen und externen Sicherheitsexperten durchgeführt und sich dabei an den Strategien des Microsoft AI Red Teams (AIRT) orientiert. Sowohl Phi-4-multimodal als auch Phi-4-mini sind für die Bereitstellung auf Geräten konzipiert und werden mithilfe von ONNX Runtime weiter optimiert, um die plattformübergreifende Kompatibilität zu verbessern. Diese Funktion macht sie ideal für kostengünstige Anwendungen mit geringer Latenz.
Verfügbarkeit für Entwickler
Entwickler können nun über Plattformen wie Azure AI Foundry, Hugging Face und den NVIDIA API Catalog auf die Phi-4-Multimodal- und Phi-4-Mini-Modelle zugreifen. Diese Innovationen stellen einen bedeutenden Fortschritt in der effizienten künstlichen Intelligenz dar und ermöglichen es Entwicklern, leistungsstarke multimodale und textbasierte Funktionen in verschiedenen KI-Anwendungen zu nutzen.
Schreibe einen Kommentar ▼