Microsoft introduce i modelli di linguaggio Phi-4 Multimodal e Phi-4 Mini Small

Microsoft presenta la famiglia Phi-4: un balzo in avanti nella tecnologia dei modelli linguistici

A dicembre 2024, Microsoft ha lanciato Phi-4, un modello di linguaggio di piccole dimensioni (SLM) all’avanguardia che stabilisce un nuovo punto di riferimento nella sua categoria. Sulla base di questo successo, l’azienda ha ora introdotto altri due modelli: Phi-4-multimodal e Phi-4-mini, ampliando le capacità della famiglia Phi-4.

Diverse funzionalità dei modelli Phi-4

Il modello multimodale Phi-4 è particolarmente degno di nota, poiché integra perfettamente elaborazione vocale, visiva e testuale in un unico framework unificato. Con un’impressionante scala di 5, 6 miliardi di parametri, si distingue come il modello linguistico multimodale inaugurale di Microsoft. Questo modello non solo migliora la flessibilità, ma supera anche in modo significativo i principali concorrenti come Gemini 2.0 Flash e Gemini 2.0 Flash Lite di Google in vari benchmark.

Eccellenza nel riconoscimento vocale

Nel campo del riconoscimento vocale, Phi-4-multimodal eccelle oltre i modelli specializzati come WhisperV3 e SeamlessM4T-v2-Large. Ha conquistato il primo posto nella classifica Hugging Face OpenASR, ottenendo un notevole tasso di errore di parole di appena il 6, 14%.Ciò lo rende una soluzione leader per le attività di riconoscimento vocale automatico (ASR) e traduzione vocale (ST).

Ottime prestazioni nei compiti di visione

Inoltre, il modello mostra prestazioni robuste in attività incentrate sulla visione, in particolare in aree come il ragionamento matematico e l’analisi scientifica. Le sue capacità di comprensione di documenti, grafici visivi, riconoscimento ottico dei caratteri (OCR) e ragionamento visivo eguagliano o superano quelle di modelli consolidati come Gemini-2-Flash-lite-preview e Claude-3.5-Sonnet.

Phi-4-mini: capacità di testo mirate

D’altro canto, Phi-4-mini, con i suoi 3, 8 miliardi di parametri, dimostra prestazioni superiori in attività basate su testo. Gestisce efficacemente ragionamento, matematica, sfide di codifica, istruzione e chiamata di funzioni, spesso superando modelli più grandi.

Vantaggi di sicurezza e distribuzione

Per affrontare le preoccupazioni relative a sicurezza e protezione, Microsoft ha garantito test rigorosi di questi modelli con approfondimenti da esperti di sicurezza sia interni che esterni, guidati dalle strategie del Microsoft AI Red Team (AIRT).Sia Phi-4-multimodal che Phi-4-mini sono progettati per la distribuzione su dispositivo, ulteriormente ottimizzati utilizzando ONNX Runtime per migliorare la compatibilità multipiattaforma. Questa funzionalità li rende ideali per applicazioni convenienti e a bassa latenza.

Disponibilità per gli sviluppatori

Gli sviluppatori possono ora accedere ai modelli Phi-4-multimodal e Phi-4-mini tramite piattaforme come Azure AI Foundry, Hugging Face e NVIDIA API Catalog. Queste innovazioni rappresentano un significativo balzo in avanti nell’intelligenza artificiale efficiente, consentendo agli sviluppatori di sfruttare potenti funzionalità multimodali e basate su testo in varie applicazioni AI.

Fonte e immagini

Microsoft introduce i modelli di linguaggio Phi-4 Multimodal e Phi-4 Mini Small

Microsoft presenta la famiglia Phi-4: un balzo in avanti nella tecnologia dei modelli linguistici

Diverse funzionalità dei modelli Phi-4

Eccellenza nel riconoscimento vocale

Ottime prestazioni nei compiti di visione

Phi-4-mini: capacità di testo mirate

Vantaggi di sicurezza e distribuzione

Disponibilità per gli sviluppatori

Articoli correlati:

Disney Dreamlight Valley svela un importante aggiornamento su Tales of Agrabah

Il caso di Super Smash Bros. Ultimate Definitive Edition come titolo di lancio ideale per Switch 2

Lascia un commento Annulla risposta▼