
Google DeepMind, Gemini 2.0으로 로봇공학에 진출
Google DeepMind는 Gemini, Imagen, Veo, Gemma, AlphaFold와 같은 모델에서 진전을 보여주며 인공 지능(AI) 분야에서 상당한 진전을 이루고 있습니다.최근 발표에서 이 팀은 Gemini 2.0을 기반으로 한 두 가지 혁신적인 모델인 Gemini Robotics 와 Gemini Robotics-ER을 출시하면서 공식적으로 로봇 분야에 진출했습니다.
Gemini Robotics 소개
Gemini Robotics는 물리적 행동을 출력 모달리티로 통합하는 최첨단 시각-언어-행동(VLA) 모델을 나타내며, 특히 로봇 제어를 위해 설계되었습니다. Gemini 2.0 아키텍처를 기반으로 구축된 이 획기적인 모델은 훈련 중에 접하지 못했던 상황을 이해하는 뛰어난 능력을 보여줍니다.
Google에 따르면 Gemini Robotics는 성능 면에서 뛰어나며 광범위한 일반화 벤치마크에서 다른 주요 VLA 모델에 비해 두 배의 성공률을 달성했습니다.이 기능은 다양한 언어에 걸친 강력한 자연어 이해로 강화되어 인간의 명령을 보다 효과적으로 해석할 수 있습니다.
비교할 수 없는 손재주
Gemini Robotics의 두드러진 특징 중 하나는 손재주입니다. Google은 이 모델이 정밀한 취급이 필요한 복잡하고 여러 단계로 구성된 작업을 처리할 수 있다고 주장합니다.주목할 만한 예로는 오리지미 접기와 Ziploc 백에 간식 포장이 있습니다.
Gemini Robotics-ER의 역량
반면, Gemini Robotics-ER은 공간 추론에 맞춰진 고급 시각 언어 모델 역할을 합니다.이 모델은 로봇 공학자에게 지각, 상태 추정, 공간 인식, 계획 및 코드 생성과 같은 필수 기능을 포함하는 로봇 제어를 위한 기성품 솔루션을 제공합니다.
로봇 개발의 협력적 노력
이러한 새로운 로봇 모델의 잠재력을 확대하기 위해 Google은 Apptronik과 협력하여 Gemini 2.0의 기능을 활용하는 휴머노이드 로봇을 개발했습니다.또한 Google은 Agile Robots, Agility Robotics, Boston Dynamics, Enchanted Tools를 포함한 일부 신뢰할 수 있는 업계 리더와 협력하여 Gemini Robotics-ER의 미래 가능성을 탐구하고 있습니다.
로봇공학의 미래를 개척하다
Google DeepMind는 로봇에게 더욱 정밀하고 유연하게 복잡한 작업을 이해하고 수행할 수 있는 능력을 부여함으로써 로봇이 일상 생활의 다양한 측면에 원활하게 통합되어 개인적, 직업적 환경을 모두 향상시킬 수 있는 미래를 열어가고 있습니다.
답글 남기기 ▼