I giudici AI migliorano le capacità di verifica dei fatti e le competenze di programmazione

Immagine tramite Pixabay

L’ascesa dell’intelligenza artificiale nella valutazione dei modelli linguistici: un nuovo approccio

Nell’ambito dell’intelligenza artificiale, i ricercatori stanno adottando sempre più modelli linguistici di grandi dimensioni (LLM) per analizzare gli output generati dai loro colleghi. Questa metodologia, denominata “LLM-as-a-judge”, mira a migliorare le capacità di valutazione all’interno dell’ecosistema dell’intelligenza artificiale. Tuttavia, sorgono difficoltà nella valutazione di compiti complessi come la verifica fattuale in formato esteso, la programmazione avanzata e la risoluzione di problemi matematici.

Soluzioni innovative dall’Università di Cambridge e Apple

Un recente studio di ricerca condotto da esperti accademici dell’Università di Cambridge in collaborazione con Apple ha introdotto un sistema rivoluzionario progettato per migliorare l’accuratezza delle valutazioni basate sull’intelligenza artificiale. Questo framework innovativo, descritto in dettaglio nell’articolo intitolato “External Validation for Large Language Models”, incorpora strumenti di convalida esterna volti ad affrontare i limiti degli annotatori umani e di quelli basati sull’intelligenza artificiale.

Affrontare i limiti delle valutazioni umane e dell’intelligenza artificiale

Sia il giudizio umano che la valutazione dell’IA affrontano sfide intrinseche. Gli annotatori umani spesso si scontrano con pregiudizi, limiti di tempo e affaticamento, che possono distorcere le loro valutazioni a favore di preferenze stilistiche piuttosto che dell’accuratezza fattuale. Al contrario, i sistemi di IA spesso faticano a gestire le complessità di compiti complessi, con conseguenti valutazioni meno affidabili.

Introduzione all’agente di valutazione

Il nuovo agente di valutazione si distingue come uno strumento poliedrico in grado di determinare autonomamente la necessità di implementare strumenti di convalida esterni durante le valutazioni. Questo agente si muove attraverso un processo in tre fasi: condurre una valutazione iniziale del dominio, utilizzare strumenti appropriati e giungere a una conclusione finale. Il design strategico di questo sistema ne potenzia la capacità di valutazione in diverse attività.

Come funzionano gli strumenti

Strumenti specifici sono stati integrati nel framework dell’agente di valutazione per migliorare la precisione delle attività:

Strumento di verifica dei fatti: utilizza ricerche sul web per verificare i fatti presentati nelle risposte.
Strumento di esecuzione del codice: utilizza l’interprete del codice OpenAI per convalidare gli output di programmazione.
Math Checker: uno strumento specializzato dedicato alla conferma di equazioni e calcoli matematici.

Nei casi in cui gli strumenti esterni non forniscano risultati sufficienti per valutazioni accurate, viene utilizzato l’annotatore LLM di base. Questo approccio riduce al minimo le elaborazioni non necessarie, mantenendo al contempo le prestazioni nelle attività più semplici.

Risultati promettenti e futura integrazione

L’implementazione di questo framework ha mostrato notevoli miglioramenti, in particolare nella verifica fattuale in formato esteso, portando a un notevole aumento dell’allineamento con le annotazioni di base. Nelle attività di codifica, una strategia basata su agenti ha migliorato significativamente le prestazioni su più baseline di test. Per le sfide matematiche, sebbene siano stati osservati miglioramenti, la concordanza complessiva con i benchmark esistenti è rimasta bassa, in particolare intorno al 56%.È interessante notare che lo studio ha rivelato che, nella valutazione delle risposte in formato esteso, l’accuratezza dell’agente ha superato quella dei valutatori umani.

Guardando al futuro, il framework è progettato con un’estendibilità in mente, consentendo la futura integrazione di ulteriori strumenti di convalida per perfezionare ulteriormente le capacità di valutazione LLM. Nell’ambito del suo impegno per l’innovazione e la collaborazione, Apple prevede di rilasciare il codice di questo framework come open source su GitHub, sebbene non sia ancora disponibile.

Fonte e immagini