Google lancia Gemma 3n, un modello di intelligenza artificiale innovativo per piattaforme mobili

Google lancia Gemma 3n, un modello di intelligenza artificiale innovativo per piattaforme mobili

Presentazione di Gemma 3n: il modello di intelligenza artificiale di nuova generazione di Google

Google ha presentato Gemma 3n, un’evoluzione rivoluzionaria nella sua serie di modelli di intelligenza artificiale aperti. Questa nuova versione, presentata durante l’evento Google I/O del mese scorso, è ora completamente disponibile per gli sviluppatori che possono implementarla sul proprio hardware locale.

Per chi non conosce la linea Gemma, questa si distingue dai modelli Gemini proprietari di Google. Gemma è progettata per essere open source, consentendo agli sviluppatori di scaricare, modificare e innovare liberamente, mentre Gemini rimane una piattaforma chiusa, focalizzata su attività ad alta potenza.

Caratteristiche principali di Gemma 3n

L’ultima versione, Gemma 3n, segna un’evoluzione significativa in quanto supporta diversi tipi di input, tra cui immagini, audio e video, per generare output testuali. Questa capacità multimodale rappresenta un notevole cambiamento rispetto ai precedenti modelli basati esclusivamente su testo. Di seguito sono riportati i principali miglioramenti introdotti con questo modello:

  • Funzionalità multimodale: Gemma 3n integra perfettamente input di testo, immagini, audio e video, migliorando la versatilità delle interazioni dell’utente.
  • Ottimizzazione on-device: due varianti del modello, E2B ed E4B, ottimizzate per l’efficienza, possono funzionare efficacemente su hardware con una quantità di memoria minima. Il numero di parametri è di 5 miliardi per E2B e 8 miliardi per E4B, ma operano con un’occupazione di memoria simile ai modelli tradizionali con solo 2 GB (E2B) e 3 GB (E4B) di RAM.
  • Architettura innovativa: il core di Gemma 3n è basato su un’architettura avanzata nota come MatFormer, che offre flessibilità computazionale. Questa struttura include Per Layer Embeddings (PLE) per un migliore utilizzo della memoria, oltre a nuovi encoder audio e di visione MobileNet-v5, pensati appositamente per applicazioni mobili.
  • Qualità superiore: il modello migliora la qualità dell’output, supportando interazioni multilingue in 140 lingue per i testi e 35 per le attività multimodali, oltre a prestazioni migliorate in matematica, codifica e ragionamento logico.

Un aspetto unico dell’efficienza di Gemma 3n risiede nella sua architettura MatFormer. Google la paragona a una matrioska russa, con modelli più grandi che racchiudono versioni più piccole e completamente funzionali per adattarsi a diverse attività.

Nei benchmark delle prestazioni, la variante E4B ha ottenuto in particolare un punteggio LMArena superiore a 1300, diventando il primo modello con meno di 10 miliardi di parametri a raggiungere questo traguardo.Esibizione di Gemma 3n su LMArena

Capacità audio e visive avanzate

Gemma 3n introduce funzionalità audio avanzate, tra cui la conversione da voce a testo e la traduzione sul dispositivo, supportate da un encoder in grado di elaborare il parlato con precisione. L’encoder di visione MobileNet-V5 aggiornato aumenta significativamente la velocità di elaborazione video, consentendo la riproduzione di video in tempo reale fino a 60 fotogrammi al secondo sui dispositivi Google Pixel.

Inizia con Gemma 3n

Se non vedi l’ora di esplorare Gemma 3n, i modelli sono facilmente accessibili tramite piattaforme come Hugging Face e Kaggle, così come in Google AI Studio, dove puoi sperimentarne direttamente le funzionalità.

Per dettagli completi su questo modello, comprese le guide per gli sviluppatori, consultate il post dell’annuncio ufficiale.

Fonte e immagini

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *