Sędziowie AI rozwijają swoje umiejętności w zakresie sprawdzania faktów i kodowania

Zdjęcie za pośrednictwem Pixabay

Rozwój sztucznej inteligencji w ocenie modeli językowych: nowe podejście

W dziedzinie sztucznej inteligencji badacze coraz częściej stosują duże modele językowe (LLM) do analizy wyników generowanych przez ich odpowiedniki. Metodologia ta, określana jako „LLM-as-a-judge”, ma na celu usprawnienie możliwości oceny w ekosystemie sztucznej inteligencji. Jednak podczas oceny złożonych zadań, takich jak weryfikacja faktów w długiej formie, zaawansowane programowanie i rozwiązywanie problemów matematycznych, pojawiają się wyzwania.

Innowacyjne rozwiązania od Uniwersytetu Cambridge i Apple

Niedawne badanie przeprowadzone przez ekspertów akademickich z Uniwersytetu Cambridge we współpracy z Apple doprowadziło do opracowania przełomowego systemu mającego na celu zwiększenie dokładności ewaluacji sztucznej inteligencji. Ten innowacyjny system, szczegółowo opisany w artykule zatytułowanym „External Validation for Large Language Models”, zawiera zewnętrzne narzędzia walidacyjne, mające na celu wyeliminowanie ograniczeń zarówno ludzkich, jak i sztucznej inteligencji, które dokonują adnotacji.

Rozwiązywanie ograniczeń ocen człowieka i sztucznej inteligencji

Zarówno ludzki osąd, jak i ocena AI stoją w obliczu nieodłącznych wyzwań. Ludzcy adnotatorzy często zmagają się z uprzedzeniami, ograniczeniami czasowymi i zmęczeniem, co może prowadzić do zniekształcenia ich ocen w kierunku preferencji stylistycznych, a nie rzetelności faktograficznej. Z drugiej strony, systemy AI często mają trudności ze złożonością złożonych zadań, co skutkuje mniej wiarygodnymi ocenami.

Przedstawiamy agenta ewaluacyjnego

Nowo opracowany Agent Ewaluacyjny wyróżnia się jako wielopłaszczyznowe narzędzie, które może autonomicznie określać konieczność wdrożenia zewnętrznych narzędzi walidacyjnych podczas ewaluacji. Agent ten przechodzi przez trzyetapowy proces: przeprowadza wstępną ocenę domeny, wykorzystuje odpowiednie narzędzia i formułuje wnioski końcowe. Strategiczna konstrukcja tego systemu zwiększa jego możliwości ewaluacyjne w różnych zadaniach.

Jak działają narzędzia

Aby zwiększyć dokładność zadań, do struktury Agenta Oceniającego wprowadzono określone narzędzia:

Narzędzie do weryfikacji faktów: Wykorzystuje przeszukiwanie Internetu w celu weryfikacji faktów przedstawionych w odpowiedziach.
Narzędzie do wykonywania kodu: wykorzystuje interpreter kodu OpenAI do sprawdzania poprawności wyników programowania.
Math Checker: Specjalistyczne narzędzie służące do potwierdzania równań i obliczeń matematycznych.

W sytuacjach, gdy narzędzia zewnętrzne nie dają wystarczających wyników do dokładnej oceny, wykorzystywany jest podstawowy adnotator LLM. Takie podejście minimalizuje zbędne przetwarzanie, jednocześnie utrzymując wydajność w przypadku prostych zadań.

Obiecujące wyniki i przyszła integracja

Wdrożenie tego frameworka przyniosło znaczące usprawnienia, szczególnie w zakresie weryfikacji faktów w formie długiej, co przełożyło się na zauważalny wzrost zgodności z adnotacjami dotyczącymi prawdy. W zadaniach kodowania, strategia oparta na agencie znacząco poprawiła wydajność w wielu bazach testowych. W przypadku wyzwań matematycznych, pomimo zaobserwowanej poprawy, ogólna zgodność z istniejącymi testami porównawczymi pozostała niska, w szczególności na poziomie około 56%.Co ciekawe, badanie wykazało, że podczas oceny odpowiedzi w formie długiej, dokładność agenta przewyższała dokładność oceniających.

Patrząc w przyszłość, framework został zaprojektowany z myślą o rozszerzalności, umożliwiając przyszłą integrację dodatkowych narzędzi walidacyjnych w celu dalszego udoskonalenia możliwości ewaluacji LLM. W ramach swojego zaangażowania w innowacyjność i współpracę, Apple planuje udostępnić kod tego frameworka jako open-source w serwisie GitHub, choć nie jest on jeszcze dostępny.

Sędziowie AI rozwijają swoje umiejętności w zakresie sprawdzania faktów i kodowania

Rozwój sztucznej inteligencji w ocenie modeli językowych: nowe podejście

Innowacyjne rozwiązania od Uniwersytetu Cambridge i Apple

Rozwiązywanie ograniczeń ocen człowieka i sztucznej inteligencji

Przedstawiamy agenta ewaluacyjnego

Jak działają narzędzia

Obiecujące wyniki i przyszła integracja

Powiązane artykuły:

Wuchang's Fallen Feathers: Najlepszy poradnik budowy jednoręcznego miecza

Wytyczne dotyczące przywoływania w WUCHANG: Fallen Feathers

Dodaj komentarz Anuluj pisanie odpowiedzi