Il nuovo modello Gemini AI di Google supera la tecnologia GPT-4o di OpenAI

Il nuovo modello Gemini AI di Google supera la tecnologia GPT-4o di OpenAI

Il nuovo modello Gemini-Exp-1114 di Google rivoluziona il panorama del benchmarking dell’intelligenza artificiale

Chatbot Arena è emersa come una piattaforma aperta di spicco dedicata al benchmarking dell’IA crowd-sourced. Negli ultimi due anni, i modelli di OpenAI hanno dominato le classifiche, ottenendo costantemente le prime posizioni in varie valutazioni dell’IA. Mentre i modelli Gemini di Google e Claude di Anthropic hanno mostrato risultati impressionanti in alcune categorie, OpenAI ha ampiamente mantenuto una presenza senza rivali nell’arena.

Di recente, Chatbot Arena ha presentato un modello sperimentale di Google, noto come Gemini-Exp-1114. Questa nuova aggiunta è stata sottoposta a rigorosi test, ricevendo oltre 6.000 voti dalla comunità la scorsa settimana, spingendola a una classifica n. 1 congiunta insieme all’ultimo modello di OpenAI, ChatGPT-4o-latest (al 3 settembre 2024). Il punteggio per questa iterazione del modello Gemini ha visto una notevole escalation, passando da 1301 a 1344, superando persino il modello o1-preview di OpenAI in termini di prestazioni complessive.

Principali risultati di Gemini-Exp-1114

Secondo i dati di Chatbot Arena, Gemini-Exp-1114 è attualmente in testa alla classifica Vision e ha anche raggiunto il primo posto nelle seguenti categorie:

  • Matematica
  • Scrittura creativa
  • Query più lunga
  • Istruzioni seguenti
  • Interazioni multi-turn
  • Richieste difficili

Nel dominio della codifica, questo nuovo modello si è assicurato la posizione n. 3; tuttavia, mostra prestazioni impressionanti in Hard Prompts con Style Control. Per contestualizzare, il modello o1-preview di OpenAI continua a essere leader sia nell’efficienza della codifica che nelle metriche di controllo dello stile. Analizzando la heatmap del win-rate, vediamo che Gemini-Exp-1114 raggiunge un win rate del 50% rispetto a GPT-4o-latest, del 56% rispetto a o1-preview e del 62% rispetto a Claude-3.5-Sonnet.

Miglioramenti recenti e metriche delle prestazioni

A settembre, Google ha introdotto la serie Gemini 1.5, che presenta miglioramenti quali un aumento di circa il 7% nei punteggi MMLU-Pro e un significativo miglioramento del 20% nei benchmark MATH e HiddenMath. I modelli più recenti riflettono anche miglioramenti del 2-7% nei casi d’uso relativi alla visione e al codice. In particolare, l’utilità complessiva delle risposte è stata migliorata, con Google che sottolinea che il nuovo modello tende a fornire risposte più concise. La lunghezza di output predefinita per questi modelli aggiornati è ora circa il 5-20% più corta rispetto ai loro predecessori.

Per coloro interessati a esplorare i risultati del modello Gemini-Exp-1114 o a provarlo, le informazioni dettagliate sono accessibili qui . Gli sviluppatori sono incoraggiati a testare questo modello all’avanguardia presso Google AI Studio, con piani per la disponibilità tramite API all’orizzonte.

Fonte e immagini

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *