L’anno 2024 ha rimodellato in modo significativo il panorama tecnologico, in particolare presso Google, che ha svelato una serie di innovazioni AI sotto il banner Gemini. Questa iniziativa presenta in modo prominente il chatbot conversazionale insieme a molteplici modelli AI fondamentali.
Nel corso dell’anno, Google ha introdotto numerosi prodotti e miglioramenti nel dominio dell’intelligenza artificiale generativa. Oltre ai punti salienti di queste nuove funzionalità Gemini, vale la pena esplorare i vari prodotti che il gigante della tecnologia ha ritirato nel 2024, insieme alla lista dei desideri delle funzionalità di Instagram previste.
Nota: l’elenco seguente evidenzia principalmente le principali funzionalità di Gemini rilasciate nel 2024, ma non comprende tutti gli sviluppi.
Da Bardo a Gemelli: la rivoluzione del rebranding
Una trasformazione importante quest’anno ha coinvolto Google che ha cambiato il suo chatbot Bard in Gemini, allineando la convenzione di denominazione con i suoi modelli preesistenti. Parallelamente a questa transizione, la società tecnologica ha lanciato il modello Gemini 1.0 Pro e ha reso il chatbot accessibile in oltre 40 lingue in 230 paesi.
Un ingegnere di Google ha spiegato il simbolismo dietro il nome Gemini, collegandolo al segno zodiacale noto per la sua dualità, che è parallela alla capacità di Gemini di elaborare vari tipi di dati. Inoltre, il nome rende omaggio al Progetto Gemini della NASA, una delle prime iniziative di esplorazione lunare.
Lancio delle app mobili e del modello di abbonamento
A febbraio, Google ha lanciato l’app Gemini per Android, soppiantando definitivamente Google Assistant come assistente vocale predefinito. Mentre gli utenti Android hanno accolto con favore il nuovo chatbot, gli utenti iOS potevano accedervi tramite l’app Google.
Nello stesso mese è stato introdotto il servizio di abbonamento a pagamento denominato Gemini Advanced, che garantisce agli utenti l’accesso ai modelli più avanzati, tra cui Gemini Ultra 1.0, 1.5 Pro e versioni sperimentali come Gemini-Exp-1206.
Inoltre, funzionalità come “Aiutami a scrivere” sono diventate disponibili sui dispositivi Chromebook Plus, fornendo un comodo pulsante Gemini sullo scaffale delle applicazioni della schermata iniziale.
Integrare l’intelligenza artificiale in Google Maps
A marzo, Google ha aumentato l’utilità del chatbot Gemini integrando il supporto per Google Maps. Gli utenti possono ora impartire comandi di navigazione direttamente tramite il chatbot.
Ad esempio, un utente può dire “Vai a [X]”, chiedendo a Gemini di fornire informazioni come la distanza del viaggio, la durata prevista e un collegamento a Google Maps, che avvierà la navigazione poco dopo.
Introduzione di Vids: un nuovo strumento di creazione video
Ad aprile, Google ha lanciato Vids, uno strumento potenziato da Gemini, mirato a semplificare la creazione di video per la formazione, il marketing e altri scopi. Con un’interfaccia in stile timeline, gli utenti possono assemblare senza problemi risorse video da Google Drive, registrare voci fuori campo o filmare direttamente dall’applicazione.
Le funzionalità di collaborazione consentono agli utenti di gestire chi può modificare, commentare o visualizzare i propri progetti. Nota che Google Vids è un componente aggiuntivo a pagamento all’interno della suite Workspace.
Integrazione di YouTube Music
A maggio è stata introdotta una nuova estensione di YouTube Music, che consente agli utenti Gemini di interagire con YouTube Music per scoprire brani, ascoltare stazioni radio ed esplorare nuovi artisti e playlist.
Sviluppo continuo: nuovi modelli Gemini
Il 2024 ha anche visto vari aggiornamenti ai modelli Gemini. Il lancio di Gemini 1.5 Flash a maggio ha fornito un LLM leggero ottimizzato per attività come riepilogo, interazioni tramite chat, didascalie di immagini e video ed estrazione di dati.
Ulteriori miglioramenti includevano una versione più compatta denominata Gemini 1.5 Flash-8B e un nuovo modello Gemini 1.5 Pro che vantava prestazioni migliorate per le attività di codifica. A dicembre, Google ha rivelato il modello sperimentale Gemini 2.0 Flash, che supportava immagini generate in modo nativo e capacità audio multilingue.
Chiedi all’Assistente Foto
Durante Google I/O 2024, è stato presentato l’assistente Ask Photos. Questo aiutante digitale, basato su Gemini, è progettato per setacciare la tua galleria, generare didascalie personalizzate e creare istantanee dai tuoi viaggi.
Espansione nell’istruzione
A maggio, Google ha esteso le funzionalità di Gemini alla sfera educativa lanciando due nuovi componenti aggiuntivi: Gemini Education e Gemini Education Premium. Queste funzionalità includono capacità di prendere appunti basate sull’intelligenza artificiale e misure di protezione dei dati migliorate.
Incorporamento di Gemini nelle applicazioni dell’area di lavoro
Proseguendo la sua missione di integrare l’intelligenza artificiale nelle sue piattaforme, Google ha presentato i pannelli laterali Gemini all’interno delle applicazioni Workspace a giugno. Questi pannelli personalizzano la funzionalità in base al contesto dell’app. Ad esempio, Gemini può riassumere i thread di posta elettronica in Gmail o assistere nella creazione di diapositive di presentazione in Google Slides.
A novembre, il pannello laterale Gemini è stato aggiunto a Google Chat, consentendo agli utenti di riassumere le conversazioni in modo efficiente.
Presentazione di Gemini Live
All’evento hardware Pixel di agosto, Google ha lanciato Gemini Live, creando un’esperienza di conversazione dinamica con il chatbot AI. Gli utenti possono impegnarsi in un dialogo naturale e riprendere le conversazioni anche mentre l’app è in esecuzione in background o mentre i loro dispositivi sono bloccati.
Inizialmente inclusa nel piano Gemini Advanced, questa funzionalità è stata successivamente resa disponibile a tutti gli utenti tramite l’app Gemini sia su Android che iOS, con l’aggiunta di poco dopo del supporto per oltre 40 lingue.
Creazione di gemme personalizzate
Con l’introduzione di Custom Gems, gli utenti possono ora personalizzare i propri chatbot Gemini per compiti specifici, che si tratti di brainstorming di idee per eventi o di fungere da tutor virtuali.
Questa funzionalità premium è accessibile agli utenti dei piani Gemini Advanced, Business ed Enterprise in oltre 150 paesi. Gli utenti possono esplorare gemme predefinite o crearne di nuove direttamente tramite il gestore delle gemme.
Lancio di Imagen 3 e Whisk Generator
A ottobre, Google ha rilasciato Imagen 3, il suo modello di generazione testo-immagine di alto livello, che si integra perfettamente con l’ecosistema Gemini, supportando tutte le lingue. Questo modello migliora la comprensione delle istruzioni per l’utente, consentendo la creazione di paesaggi fotorealistici, dipinti artistici e scene fantasiose, con possibili successivi perfezionamenti.
Oltre a Imagen 3, Google ha presentato lo strumento Whisk, che consente la generazione di immagini da immagini esistenti, ampliando ulteriormente la sua offerta creativa.
Collaborazioni Gemini con Opera e Snapchat
Google ha stretto una partnership con Opera per integrare le funzionalità di Gemini nella sua intelligenza artificiale Aria nel browser, migliorando l’esperienza di navigazione con funzionalità avanzate di conversione di testo in voce e di generazione di immagini.
Inoltre, Snapchat ha collaborato con Google per migliorare il suo chatbot My AI, dando vita a un’esperienza multimodale più sofisticata. I report indicano che questa integrazione ha aumentato il coinvolgimento degli utenti sulla piattaforma di 2,5 volte negli Stati Uniti.
Deep Research: un nuovo assistente di ricerca AI
Per coloro che sono impegnati in ricerche approfondite, il nuovo assistente Deep Research mira a semplificare il processo. Questo strumento facilita l’analisi approfondita dei documenti, i riepiloghi e l’estrazione di approfondimenti critici da grandi set di dati.
Stiamo inoltre introducendo una nuova funzionalità agentica chiamata Deep Research in Gemini Advanced, un assistente di ricerca in grado di approfondire argomenti complessi e creare report per te con collegamenti alle fonti pertinenti. pic.twitter.com/imYd4tktEG
— Sundar Pichai (@sundarpichai) 11 dicembre 2024
Deep Research è disponibile come parte di Gemini Advanced e supporta oltre 45 lingue in più di 150 Paesi.
Navigazione con linguaggio naturale nelle mappe
Un recente miglioramento di Google Maps ora consente agli utenti di effettuare ricerche in linguaggio naturale. Ad esempio, digitando “cose da fare con gli amici di notte” si ottengono recensioni riassunte di luoghi suggeriti, offrendo un’esperienza di navigazione più intuitiva.
Streaming da Spotify
Con gli ultimi aggiornamenti di Gemini, è stata introdotta la compatibilità con Spotify insieme a YouTube Music. Gli utenti possono ora richiedere brani, sfogliare playlist e cercare musica utilizzando i testi tramite l’interfaccia Gemini su Android, a condizione che abbiano un account Spotify Premium.
Controversie sui Gemelli
Nonostante i suoi progressi, Gemini di Google ha dovuto affrontare delle controversie. A febbraio, la funzionalità di generazione delle immagini è stata criticata per parzialità, portando a una sospensione temporanea del servizio mentre Google affrontava le preoccupazioni.
Altri report hanno rilevato incidenti di riepilogo PDF non autorizzato, anche quando impostazioni specifiche erano disabilitate. Inoltre, i risultati hanno rivelato che un team di appaltatori ha aiutato a valutare l’output di Gemini rispetto ai modelli concorrenti, sollevando domande sulle somiglianze di risposta.
Lascia un commento