Gemini 2.5 AI 모델, 주요 벤치마크 테스트에서 경쟁 모델 능가

최근 Google I/O 행사에서 Google은 컴퓨터 상호작용 기능에 특화된 Gemini API 개선과 관련하여 중요한 업데이트를 발표했습니다.Gemini 2.5 Computer Use 의 공개는 사용자 인터페이스(UI) 탐색 및 상호작용을 위해 설계된 AI 기반 모델에 있어 상당한 발전을 의미합니다. Google은 이 새로운 모델이 웹 및 모바일 제어 작업 모두에서 다양한 벤치마크에서 경쟁 모델을 능가한다고 주장합니다.

Gemini API 컴퓨터 사용 도구 이해

컴퓨터 사용 도구의 엔지니어링 워크플로는 여러 가지 핵심 단계를 포함하는 원활한 상호 작용 모델을 중심으로 구축되었습니다.

개발자는 인터페이스의 스크린샷과 최근에 수행된 작업 로그를 포함하는 사용자 요청을 제출하는 것으로 시작합니다.
또한 개발자는 사용 가능한 광범위한 UI 작업 목록에서 특정 기능을 제외할지 또는 사용자 정의 기능을 포함할지 여부를 표시할 수 있습니다.
이러한 입력을 받으면 모델은 정보를 처리하고 클릭이나 입력을 포함한 해당 동작을 생성합니다.
모델이 선택에 대한 확신이 부족한 경우, 최종 사용자에게 확인을 요청할 수 있습니다.예를 들어, 금융 거래와 관련된 작업을 진행하기 전에 사용자 확인을 요청할 수 있습니다.
그런 다음 버튼을 누르거나 사용자에게 확인을 요청하는 등 클라이언트 측 코드를 통해 작업이 실행됩니다.
작업이 실행된 후, 현재 그래픽 사용자 인터페이스(GUI)의 새로운 스크린샷과 활성 URL이 컴퓨터 사용 모델로 전송되어 프로세스가 재설정됩니다.
정의된 작업이 성공적으로 완료될 때까지 이러한 단계가 반복됩니다.

성과 통찰력 및 접근성

Gemini 2.5 컴퓨터 사용 모델은 웹 브라우저에서 최적의 성능을 발휘하도록 미세 조정되었지만, Google은 모바일 UI 작업에서도 훌륭한 결과를 제공한다고 밝혔습니다.그러나 이 모델은 아직 개발 중이며 데스크톱 운영 체제 수준의 제어를 위해 미세 조정되지 않았다는 점은 주목할 만합니다. Google은 최근 발표에서 이 점을 강조했습니다.

개발자를 위한 가용성

Gemini 2.5 컴퓨터 사용 모델이 공개 프리뷰로 출시되었으며, 이제 개발자는 Google AI Studio 및 Vertex AI 와 같은 플랫폼에서 Gemini API를 통해 접근할 수 있습니다.이러한 개발자 지원 강화는 고급 AI 기능을 통해 사용자 상호작용을 향상하고 작업을 간소화하는 것을 목표로 합니다.

더욱 자세한 정보와 시각적 자료를 보려면 여기에서 원본 발표문을 살펴보세요.