
Al recente evento Google I/O, Google ha presentato un aggiornamento significativo riguardante i miglioramenti all’API Gemini, specificamente pensati per le capacità di interazione con il computer. La presentazione di Gemini 2.5 Computer Use rappresenta un progresso sostanziale nei modelli basati sull’intelligenza artificiale progettati per navigare e interagire con le interfacce utente (UI).Google afferma che questo nuovo modello supera i suoi concorrenti in vari benchmark, sia nelle attività di controllo web che mobile.
Comprensione dello strumento di utilizzo del computer dell’API Gemini
Il flusso di lavoro progettato per lo strumento Computer Use è costruito attorno a un modello di interazione fluida, che prevede diversi passaggi chiave:
- Gli sviluppatori iniziano inviando una richiesta utente che comprende uno screenshot dell’interfaccia e un registro delle azioni recenti eseguite.
- Inoltre, gli sviluppatori possono indicare se desiderano escludere determinate funzioni dall’ampio elenco di azioni dell’interfaccia utente disponibili o includere funzionalità personalizzate.
- Dopo aver ricevuto questo input, il modello elabora le informazioni e genera un’azione corrispondente, che potrebbe comportare un clic o una digitazione.
- In scenari in cui il modello non è sicuro della propria scelta, potrebbe richiedere conferma all’utente finale. Ad esempio, richiederà la verifica dell’utente prima di procedere con azioni relative alle transazioni finanziarie.
- L’azione viene quindi eseguita tramite codice lato client, ad esempio premendo un pulsante o richiedendo conferma all’utente.
- Dopo l’esecuzione dell’attività, uno screenshot aggiornato dell’interfaccia utente grafica (GUI) corrente, insieme all’URL attivo, viene inviato al modello Computer Use, reimpostando il processo.
- Questi passaggi vengono ripetuti finché l’attività definita non viene completata correttamente.
Informazioni sulle prestazioni e accessibilità
Sebbene il modello Gemini 2.5 Computer Use sia ottimizzato per prestazioni ottimali nei browser web, Google ha dichiarato di offrire risultati apprezzabili anche nelle operazioni di interfaccia utente mobile. Tuttavia, è interessante notare che questo modello è ancora in fase di sviluppo e non è ancora ottimizzato per il controllo a livello di sistema operativo desktop, un punto evidenziato da Google nelle sue recenti comunicazioni.

Disponibilità per gli sviluppatori
Il modello Gemini 2.5 Computer Use è stato lanciato in anteprima pubblica ed è ora accessibile agli sviluppatori tramite l’API Gemini su piattaforme come Google AI Studio e Vertex AI. Questa estensione per gli sviluppatori mira a migliorare l’interazione con gli utenti e semplificare le attività attraverso funzionalità di intelligenza artificiale avanzate.
Per approfondimenti più dettagliati e risorse visive, puoi esplorare l’annuncio originale qui.
Lascia un commento