라마 드라마: 메타의 ‘실험적’ AI 모델이 순위를 끌어올리고 공정성, 투명성, 사용자 접근성에 대한 우려를 불러일으키다

지난 주말, 메타(Meta)는 Llama 4 AI의 혁신적인 두 가지 버전을 공개했습니다.소형 버전인 Scout와 중형 버전인 Maverick이 그 주인공입니다.메타는 Maverick이 여러 널리 사용되는 평가에서 ChatGPT-4o와 Gemini 2.0 Flash를 능가한다고 자랑했습니다.하지만 이러한 주장에는 더 많은 숨겨진 의미가 있는 듯합니다.

메타, 조사 중: AI 모델 성능에 대한 오해의 소지가 있는 주장으로 논란 발생

Maverick은 출시 후 사용자들이 AI 응답의 관련성과 정확성을 평가하고 투표하는 플랫폼인 LMArena에서 빠르게 2위를 차지했습니다.하지만 상황은 겉보기처럼 단순하지 않습니다. Maverick의 빠른 성장은 성과 지표의 무결성에 대한 논의를 불러일으켰습니다.

Meta는 Maverick의 인상적인 ELO 점수 1417점을 자랑스럽게 발표하며 Gemini 2.5 Pro 바로 뒤를, GPT-40을 앞지르는 성적을 거두었습니다.이는 Meta가 경쟁력 있는 AI 모델을 개발했음을 보여주는 것이지만, 그 후의 결과는 기술 업계의 우려를 불러일으켰습니다.전문가들은 모델의 성능 주장에 불일치가 있음을 곧바로 지적했고, Meta는 LMArena에 평가를 위해 제출된 버전이 일반 소비자용 버전과 다르다는 사실을 인정했습니다.

특히, TechCrunch 보도에 따르면 Meta는 대화 기능 향상을 위해 미세 조정된 실험적인 채팅 버전을 제공했습니다.이에 대해 LMArena는 “Meta의 정책 해석은 모델 제공업체에 대한 기대와 일치하지 않았다”고 강조하며, 사용자의 선호도에 맞춰 제작된 “Llama-4-Maverick-03-26-Experimental” 버전 사용에 대해 Meta가 더 명확한 입장을 밝혀야 한다고 촉구했습니다.

이 사건을 계기로 LMArena는 향후 순위의 공정성과 신뢰성을 강화하기 위해 순위표 정책을 개정했습니다.이후 메타 대변인은 이 상황에 대해 다음과 같은 의견을 밝혔습니다.

“이제 오픈 소스 버전을 출시했으며, 개발자들이 각자의 사용 사례에 맞게 Llama 4를 어떻게 사용자 정의하는지 살펴보겠습니다.”

메타는 기술적으로는 규칙을 준수했지만, 투명성 부족으로 인해 최적화되고 비공개적인 모델을 사용하여 순위표를 조작할 가능성에 대한 우려가 제기되었습니다.독립 AI 연구원 사이먼 윌리슨은 다음과 같이 지적했습니다.

“Llama 4가 나와서 2위를 차지했을 때 정말 감명을 받았어요.약관을 읽지 않은 게 후회스럽네요.”

“전반적으로 매우 혼란스러운 발표입니다…저희가 받은 모델 점수는 저에게 전혀 쓸모가 없습니다.높은 점수를 받은 모델조차 사용할 수 없습니다.”

한편, 메타의 AI 모델이 특정 테스트 시나리오에서 탁월한 성능을 발휘하도록 훈련되었다는 추측도 있었습니다.그러나 메타의 생성 AI 부문 부사장인 아흐만 알-달레는 이러한 주장을 반박하며 다음과 같이 말했습니다.

“테스트 세트로 훈련을 시켰다는 주장도 들었는데, 그건 사실이 아닙니다.”

이러한 논의 속에서 사용자들은 Maverick AI 모델이 일요일에 출시된 이유에 대해 의문을 제기했습니다.마크 저커버그는 간단히 “그때가 바로 준비가 된 시점입니다.”라고 답했습니다.메타는 특히 AI 분야의 치열한 경쟁을 고려했을 때 Llama 4를 마침내 출시하는 데 상당한 시간을 소요했습니다.개발이 계속 진행됨에 따라 추가 업데이트를 기대해 주시기 바랍니다.

출처 및 이미지