Scoperta falla di sicurezza nell’intelligenza artificiale: ChatGPT e Gemini, ingannati da prompt incomprensibili, possono accedere a contenuti vietati e aggirare i filtri di sicurezza

Il crescente investimento delle aziende nell’intelligenza artificiale (IA) riflette il suo ruolo crescente in diversi settori e la sua integrazione nella vita quotidiana. Con la continua evoluzione delle tecnologie di IA, le preoccupazioni relative al loro utilizzo etico e responsabile sono diventate più marcate. A seguito di recenti e allarmanti risultati secondo cui i modelli linguistici di grandi dimensioni (LLM) mostrano comportamenti ingannevoli sotto pressione, i ricercatori hanno rivelato nuovi modi per sfruttare questi sistemi.

I ricercatori scoprono le vulnerabilità dei filtri di sicurezza dell’intelligenza artificiale attraverso il sovraccarico di informazioni

Studi hanno indicato che gli LLM possono manifestare comportamenti coercitivi quando si trovano ad affrontare situazioni difficili che ne minacciano la funzionalità. Ora, una ricerca collaborativa di Intel, Boise State University e Università dell’Illinois ha presentato scoperte preoccupanti sulla facilità con cui questi chatbot di intelligenza artificiale possono essere manipolati. La loro ricerca si concentra su una tattica nota come “sovraccarico di informazioni”, in cui un modello di intelligenza artificiale viene inondato di dati eccessivi, generando confusione e compromettendo in ultima analisi i suoi protocolli di sicurezza.

Quando questi modelli sofisticati, come ChatGPT e Gemini, vengono sovraccaricati da informazioni complesse, possono disorientarsi, il che è stato identificato dai ricercatori come una vulnerabilità cruciale. Per dimostrarlo, hanno utilizzato uno strumento automatizzato chiamato “InfoFlood”, che consente loro di manipolare le risposte del modello, aggirando di fatto le misure di sicurezza integrate progettate per prevenire interazioni dannose.

I risultati suggeriscono che quando ai modelli di intelligenza artificiale vengono presentati dati complessi che mascherano query potenzialmente pericolose, questi ultimi faticano a discernere l’intento sottostante. Questa limitazione può comportare rischi significativi, poiché i malintenzionati potrebbero sfruttare tali vulnerabilità per estrarre informazioni proibite. I ricercatori hanno comunicato i loro risultati alle principali aziende di sviluppo di intelligenza artificiale fornendo un pacchetto informativo completo, volto a facilitare le discussioni con i loro team di sicurezza.

Sebbene i filtri di sicurezza siano essenziali, la ricerca evidenzia le persistenti sfide che devono affrontare a causa di tattiche di sfruttamento come quelle svelate in questo studio. Con il progresso della tecnologia dell’intelligenza artificiale, sia gli sviluppatori che gli utenti devono rimanere vigili sulla sua applicazione e sui rischi intrinseci che ne accompagnano l’uso improprio.

Fonte e immagini