
언어 모델 평가에서 AI의 부상: 새로운 접근 방식
인공지능 분야에서 연구자들은 상대 연구자들이 생성한 결과를 분석하기 위해 대규모 언어 모델(LLM)을 점점 더 많이 도입하고 있습니다.”LLM 평가자(LLM as a Judge)”라고 불리는 이 방법론은 AI 생태계 내 평가 역량을 향상시키는 것을 목표로 합니다.그러나 장문의 사실 검증, 고급 프로그래밍, 수학적 문제 해결과 같은 복잡한 작업을 평가하는 과정에서는 어려움이 발생합니다.
케임브리지 대학교와 Apple의 혁신적인 솔루션
케임브리지 대학교의 학계 전문가들이 애플과 협력하여 수행한 최근 연구에서 AI 평가의 정확도를 높이기 위해 설계된 획기적인 시스템이 소개되었습니다.“대규모 언어 모델에 대한 외부 검증” 이라는 제목의 논문에 자세히 설명된 이 혁신적인 프레임워크는 인간과 AI 주석 작성자의 한계를 해결하기 위한 외부 검증 도구를 통합합니다.
인간과 AI 평가의 한계 해결
인간의 판단과 AI 평가 모두 본질적인 어려움에 직면합니다.인간 주석 작성자는 종종 편향, 시간 제약, 그리고 피로에 시달리며, 이는 사실적 정확성보다는 문체적 선호도에 따라 평가를 왜곡할 수 있습니다.반대로, AI 시스템은 복잡한 작업의 복잡성을 처리하는 데 어려움을 겪는 경우가 많아 평가의 신뢰성이 떨어집니다.
평가 에이전트 소개
새롭게 개발된 평가 에이전트는 평가 과정에서 외부 검증 도구 도입의 필요성을 자율적으로 판단할 수 있는 다면적인 도구로 돋보입니다.이 에이전트는 도메인 초기 평가, 적절한 도구 활용, 최종 결론 도출의 세 단계 프로세스를 거칩니다.이 시스템의 전략적 설계는 다양한 작업 전반에 걸쳐 평가 역량을 강화합니다.
도구 작동 방식
평가 에이전트 프레임워크에 특정 도구가 통합되어 작업 정확도가 향상되었습니다.
- 사실 확인 도구: 웹 검색을 활용하여 응답에 제시된 사실을 확인합니다.
- 코드 실행 도구: OpenAI의 코드 인터프리터를 활용하여 프로그래밍 출력을 검증합니다.
- 수학 검사기: 수학 방정식과 계산을 확인하는 데 특화된 도구입니다.
외부 도구로 정확한 평가를 위한 충분한 결과를 얻을 수 없는 상황에서는 기준 LLM 주석 도구를 활용합니다.이 접근 방식은 불필요한 처리를 최소화하는 동시에 간단한 작업의 성능을 유지합니다.
유망한 결과와 미래 통합
이 프레임워크를 구현한 결과, 특히 장문 사실 검증에서 눈에 띄는 향상이 나타났으며, 실제 주석과의 일치도도 눈에 띄게 향상되었습니다.코딩 작업에서는 에이전트 기반 전략이 여러 테스트 기준에서 성능을 크게 향상시켰습니다.수학적 과제의 경우, 개선이 관찰되었지만 기존 벤치마크와의 전반적인 일치도는 약 56%로 여전히 낮았습니다.흥미롭게도, 이 연구는 장문 응답을 평가할 때 에이전트의 정확도가 인간 평가자보다 우수하다는 것을 보여주었습니다.
이 프레임워크는 향후 확장성을 고려하여 설계되었으며, 향후 추가 검증 도구를 통합하여 LLM 평가 기능을 더욱 개선할 수 있습니다.혁신과 협업에 대한 Apple의 노력의 일환으로, 이 프레임워크의 코드를 GitHub 에 오픈 소스로 공개할 계획 이지만, 아직 공개되지는 않았습니다.
답글 남기기