Google, 주요 AI 벤치마크에서 OpenAI의 GPT-5.1을 능가하는 Gemini 3 출시

Gemini 3 소개: Google의 최신 AI 혁신

구글 딥마인드(DeepMind)의 기대작 제미니 3(Gemini 3) 모델이 몇 주간의 추측과 티저 공개를 거쳐 공식 출시되었습니다.이 최첨단 모델은 AI 분야에서 독보적인 고급 추론 능력과 멀티모달 기능을 자랑합니다.

벤치마크 성공 및 성과

Google은 Gemini 3가 1, 501점이라는 인상적인 Elo 점수로 LMArena 리더보드에서 선두를 달리고 있다고 밝혔습니다.이 놀라운 성과 외에도, 이 모델은 Humanity’s Last Exam에서 37.5%, GPQA Diamond에서 91.9%라는 놀라운 점수를 기록했습니다.또한, MathArena Apex에서 23.4%라는 획기적인 점수를 달성했으며 다중 모드 추론 벤치마크에서도 향상된 성능을 보였습니다.특히 Gemini 3 Pro 버전은 MMMU-Pro에서 81%, Video-MMMU에서 87.6%의 점수를 기록하며 두각을 나타냈습니다.특히, 사실 정확도를 측정하는 SimpleQA Verified 테스트에서 72.1%라는 최고 점수를 기록했습니다.

아래 이미지에서 Gemini 3 Pro와 GPT 5.1, Claude Sonnet 4.5의 비교 벤치마크를 확인하세요.

Gemini 3 Deep Think: 향상된 성능

표준 모델 외에도 Google은 다양한 AI 벤치마크에서 더욱 뛰어난 성능을 보이는 Gemini 3 Deep Think 모드를 선보였습니다. Google의 최근 데이터에 따르면, 이 고급 모드는 Humanity’s Last Exam에서 41%, GPQA Diamond에서 93.8%, ARC Prize에서 확인된 코드 실행 검증(ARC-AGI-2)에서 45.1%의 점수를 기록했습니다.놀랍게도 모든 Gemini 3 모델은 100만 토큰의 광범위한 컨텍스트 윈도우를 유지합니다.

접근성과 혁신의 새로운 시대

시장 출시가 느렸던 이전 버전들과 달리, 구글은 이제 공격적인 출시 전략을 채택하고 있습니다.구글 검색의 AI 모드는 이미 Gemini 3를 활용하여 새로운 생성형 사용자 인터페이스 경험을 제공하고 있습니다.여기에는 사용자 질의에 실시간으로 응답할 수 있는 역동적인 시각적 레이아웃과 인터랙티브 도구가 포함됩니다.

개발 및 소비자 가용성

SWE-bench Verified 벤치마크에 따르면 Gemini 3 Pro는 코딩 능력 평가에서 76.2%의 점수를 기록했으며, 이는 OpenAI의 GPT 5.1과 Anthropic의 Sonnet 4.5에 약간 못 미치는 수치입니다.이 모델을 활용하고자 하는 개발자들을 위해 Google AI Studio, Vertex AI, Gemini CLI, Cursor, GitHub, JetBrains, Manus, Replit, 그리고 새롭게 출시된 Google Antigravity 에이전트 개발 플랫폼 등 다양한 플랫폼에서 Gemini 3 Pro를 이용할 수 있습니다.

일반 사용자는 이제 Gemini 앱을 통해 Gemini 3 모델을 사용할 수 있습니다.또한 Google AI Pro 및 Ultra 구독자는 검색의 AI 모드를 통해 액세스할 수 있으며, 기업은 Vertex AI 및 Gemini Enterprise를 통해 기능을 활용할 수 있습니다. Gemini 3 Deep Think 모드는 향후 몇 주 안에 Google AI Ultra 구독자에게 출시될 예정입니다.

출처 및 이미지