Google은 완전 하이브리드 추론 모델로 Gemini 2.5 Flash 미리보기를 공개했습니다.

구글, 향상된 기능 탑재한 제미니 2.5 플래시 모델 공개

지난주 많은 기대를 모았던 Cloud Next 행사에서 Google은 Gemini 2.5 Flash 모델 의 출시를 발표했습니다.이 새로운 버전은 상당한 발전을 약속하며, Google AI Studio와 Vertex AI 환경에서 Gemini API를 통해 미리 볼 수 있습니다. Gemini 사용자는 Canvas와 완벽하게 통합되는 모델 선택기를 통해 이 모델에 편리하게 액세스할 수 있으며, 이를 통해 문서 및 코드 개선 프로세스가 향상됩니다.

이전 모델에 비해 개선된 점

이전 버전인 Gemini 2.0 Flash 의 기반을 바탕으로, 2.5 버전은 합리적인 가격을 유지하고 지연 시간을 최소화하는 동시에 추론 기능을 대폭 향상시켰습니다. Google에 따르면, 이 새로운 모델은 뛰어난 성능 대비 비용 비율을 제공하도록 설계되었습니다.가격 정보는 다음과 같습니다.

100만 개의 입력 토큰당 0.15달러
추론 없이 백만 개의 출력 토큰당 0.60달러
추론이 포함된 백만 개의 출력 토큰당 3.50달러

2.5 플래시의 초기 버전이지만, 이미 2.0 플래시에 비해 엄청난 성능 향상을 보이고 있습니다.필요한 경우 ‘생각하기’ 기능을 완전히 비활성화하고 이 모델을 2.0 플래시의 드롭인 대체재로 사용할 수 있습니다. Gemini API, AI Studio, Vertex, 그리고 Gemini 앱에서 모두 사용할 수 있습니다!

— Logan Kilpatrick (@OfficialLoganK) 2025년 4월 17일

하이브리드 추론 기능 소개

제미니 2.5 플래시 모델은 구글 최초의 완전 하이브리드 추론 모델 로서 중요한 이정표를 세웠습니다.개발자는 추론 기능을 켜고 끌 수 있습니다.이러한 유연성 덕분에 개발자는 특정 프로젝트 요구 사항에 따라 품질, 비용 및 응답 지연 시간 간의 균형을 맞춰 애플리케이션을 최적화할 수 있습니다.

비교 성능 통찰력

첨부된 벤치마크 표에서 볼 수 있듯이, Gemini 2.5 Flash 모델은 저렴한 비용 구조에도 불구하고 Anthropic과 Grok의 주요 모델들과 효과적으로 경쟁합니다. OpenAI가 최근 출시한 o4-mini는 Gemini 2.5 Flash 프리뷰보다 우수한 성능을 보여주지만, 가격이 훨씬 높아 현재 시장에서 Google의 경쟁력을 더욱 강조합니다.

이 획기적인 모델에 대한 더 자세한 정보와 통찰력을 얻으려면 원본 출처 를 참조하세요.