
Rozwój sztucznej inteligencji w ocenie modeli językowych: nowe podejście
W dziedzinie sztucznej inteligencji badacze coraz częściej stosują duże modele językowe (LLM) do analizy wyników generowanych przez ich odpowiedniki. Metodologia ta, określana jako „LLM-as-a-judge”, ma na celu usprawnienie możliwości oceny w ekosystemie sztucznej inteligencji. Jednak podczas oceny złożonych zadań, takich jak weryfikacja faktów w długiej formie, zaawansowane programowanie i rozwiązywanie problemów matematycznych, pojawiają się wyzwania.
Innowacyjne rozwiązania od Uniwersytetu Cambridge i Apple
Niedawne badanie przeprowadzone przez ekspertów akademickich z Uniwersytetu Cambridge we współpracy z Apple doprowadziło do opracowania przełomowego systemu mającego na celu zwiększenie dokładności ewaluacji sztucznej inteligencji. Ten innowacyjny system, szczegółowo opisany w artykule zatytułowanym „External Validation for Large Language Models”, zawiera zewnętrzne narzędzia walidacyjne, mające na celu wyeliminowanie ograniczeń zarówno ludzkich, jak i sztucznej inteligencji, które dokonują adnotacji.
Rozwiązywanie ograniczeń ocen człowieka i sztucznej inteligencji
Zarówno ludzki osąd, jak i ocena AI stoją w obliczu nieodłącznych wyzwań. Ludzcy adnotatorzy często zmagają się z uprzedzeniami, ograniczeniami czasowymi i zmęczeniem, co może prowadzić do zniekształcenia ich ocen w kierunku preferencji stylistycznych, a nie rzetelności faktograficznej. Z drugiej strony, systemy AI często mają trudności ze złożonością złożonych zadań, co skutkuje mniej wiarygodnymi ocenami.
Przedstawiamy agenta ewaluacyjnego
Nowo opracowany Agent Ewaluacyjny wyróżnia się jako wielopłaszczyznowe narzędzie, które może autonomicznie określać konieczność wdrożenia zewnętrznych narzędzi walidacyjnych podczas ewaluacji. Agent ten przechodzi przez trzyetapowy proces: przeprowadza wstępną ocenę domeny, wykorzystuje odpowiednie narzędzia i formułuje wnioski końcowe. Strategiczna konstrukcja tego systemu zwiększa jego możliwości ewaluacyjne w różnych zadaniach.
Jak działają narzędzia
Aby zwiększyć dokładność zadań, do struktury Agenta Oceniającego wprowadzono określone narzędzia:
- Narzędzie do weryfikacji faktów: Wykorzystuje przeszukiwanie Internetu w celu weryfikacji faktów przedstawionych w odpowiedziach.
- Narzędzie do wykonywania kodu: wykorzystuje interpreter kodu OpenAI do sprawdzania poprawności wyników programowania.
- Math Checker: Specjalistyczne narzędzie służące do potwierdzania równań i obliczeń matematycznych.
W sytuacjach, gdy narzędzia zewnętrzne nie dają wystarczających wyników do dokładnej oceny, wykorzystywany jest podstawowy adnotator LLM. Takie podejście minimalizuje zbędne przetwarzanie, jednocześnie utrzymując wydajność w przypadku prostych zadań.
Obiecujące wyniki i przyszła integracja
Wdrożenie tego frameworka przyniosło znaczące usprawnienia, szczególnie w zakresie weryfikacji faktów w formie długiej, co przełożyło się na zauważalny wzrost zgodności z adnotacjami dotyczącymi prawdy. W zadaniach kodowania, strategia oparta na agencie znacząco poprawiła wydajność w wielu bazach testowych. W przypadku wyzwań matematycznych, pomimo zaobserwowanej poprawy, ogólna zgodność z istniejącymi testami porównawczymi pozostała niska, w szczególności na poziomie około 56%.Co ciekawe, badanie wykazało, że podczas oceny odpowiedzi w formie długiej, dokładność agenta przewyższała dokładność oceniających.
Patrząc w przyszłość, framework został zaprojektowany z myślą o rozszerzalności, umożliwiając przyszłą integrację dodatkowych narzędzi walidacyjnych w celu dalszego udoskonalenia możliwości ewaluacji LLM. W ramach swojego zaangażowania w innowacyjność i współpracę, Apple planuje udostępnić kod tego frameworka jako open-source w serwisie GitHub, choć nie jest on jeszcze dostępny.
Dodaj komentarz