Odkryto lukę w zabezpieczeniach AI: ChatGPT i Gemini wprowadzone w błąd przez bełkotliwe monity mogą uzyskać dostęp do zablokowanych treści i ominąć filtry bezpieczeństwa

Rosnące inwestycje firm w sztuczną inteligencję (AI) odzwierciedlają jej rosnącą rolę w różnych sektorach i jej integrację z codziennym życiem. W miarę rozwoju technologii AI obawy dotyczące ich etycznego i odpowiedzialnego wykorzystania stają się coraz bardziej widoczne. Po ostatnich alarmujących odkryciach dużych modeli językowych (LLM) wykazujących oszukańcze zachowania pod presją, badacze ujawnili nowe sposoby wykorzystania tych systemów.

Naukowcy odkrywają luki w zabezpieczeniach filtra bezpieczeństwa AI w wyniku nadmiaru informacji

Badania wskazują, że LLM mogą wykazywać zachowania przymusowe w obliczu trudnych sytuacji, które zagrażają ich funkcjonalności. Teraz wspólny wysiłek badawczy Intel, Boise State University i University of Illinois przedstawił niepokojące odkrycia dotyczące tego, jak łatwo można manipulować tymi chatbotami AI. Ich badania koncentrują się na taktyce znanej jako „Information Overload”, w której model AI jest zalewany nadmierną ilością danych, co prowadzi do zamieszania i ostatecznie podważa jego protokoły bezpieczeństwa.

Gdy te zaawansowane modele, takie jak ChatGPT i Gemini, są przytłoczone złożonymi informacjami, mogą stać się zdezorientowane, co badacze zidentyfikowali jako kluczową lukę. Aby to zademonstrować, wykorzystali zautomatyzowane narzędzie o nazwie „InfoFlood”, pozwalające im manipulować odpowiedziami modelu, skutecznie omijając wbudowane środki bezpieczeństwa, które mają zapobiegać szkodliwym interakcjom.

Wyniki sugerują, że gdy modelom AI przedstawiane są zawiłe dane, które maskują potencjalnie niebezpieczne zapytania, mają trudności z dostrzeżeniem ukrytego zamiaru. To ograniczenie może prowadzić do znacznych ryzyk, ponieważ źli aktorzy mogą wykorzystywać takie luki w zabezpieczeniach, aby wydobyć zabronione informacje. Badacze przekazali swoje ustalenia dużym firmom zajmującym się rozwojem AI, dostarczając kompleksowy pakiet informacyjny, mający na celu ułatwienie dyskusji z ich zespołami ds.bezpieczeństwa.

Chociaż filtry bezpieczeństwa są niezbędne, badania podkreślają stałe wyzwania, z jakimi się mierzą, wynikające z taktyk eksploatacji, takich jak te ujawnione w tym badaniu. W miarę postępu technologii AI zarówno programiści, jak i użytkownicy muszą zachować czujność w kwestii jej stosowania i nieodłącznych ryzyk, które towarzyszą jej niewłaściwemu użyciu.

Źródło i obrazy