Google stellt Gemini Robotics mit dem neuen Modell Gemini 2.0 für verbesserte Roboterleistung vor

Google DeepMind wagt sich mit Gemini 2.0 in die Robotik

Google DeepMind macht weiterhin bedeutende Fortschritte im Bereich der künstlichen Intelligenz (KI) und präsentiert Fortschritte bei Modellen wie Gemini, Imagen, Veo, Gemma und AlphaFold. Kürzlich kündigte das Team den offiziellen Einstieg in die Robotik an und stellte zwei innovative Modelle auf Basis von Gemini 2.0 vor: Gemini Robotics und Gemini Robotics-ER.

Wir stellen vor: Gemini Robotics

Gemini Robotics ist ein hochmodernes Vision-Language-Action-Modell (VLA), das physische Aktionen als Ausgabemodalität integriert und speziell für die Robotersteuerung entwickelt wurde. Dieses bahnbrechende Modell, das auf der Gemini 2.0-Architektur basiert, verfügt über eine außergewöhnliche Fähigkeit, Situationen zu verstehen, die ihm während des Trainings nicht begegnet sind.

Laut Google zeichnet sich Gemini Robotics durch herausragende Leistung aus und erreicht bei umfangreichen Generalisierungsbenchmarks die doppelte Erfolgsquote im Vergleich zu anderen führenden VLA-Modellen. Diese Fähigkeit wird durch das robuste Verständnis natürlicher Sprache in verschiedenen Sprachen verstärkt, wodurch menschliche Befehle effektiver interpretiert werden können.

https://www.youtube.com/watch?v=sY20x_tyWpQ

Gemini Robotics: Generality in action (https://www.youtube.com/watch?v=sY20x_tyWpQ)

Unübertroffene Fingerfertigkeit

Eines der herausragendsten Merkmale von Gemini Robotics ist seine Geschicklichkeit. Google behauptet, dass dieses Modell komplexe, mehrstufige Aufgaben bewältigen kann, die präzises Handling erfordern. Bemerkenswerte Beispiele sind das Falten von Origami und das Verpacken von Snacks in Ziploc-Beuteln.

Fähigkeiten von Gemini Robotics-ER

Gemini Robotics-ER hingegen dient als fortschrittliches Vision-Language-Modell, das auf räumliches Denken zugeschnitten ist. Dieses Modell bietet Robotikern eine sofort einsatzbereite Lösung zur Robotersteuerung, die wesentliche Funktionen wie Wahrnehmung, Zustandsschätzung, räumliches Bewusstsein, Planung und Codegenerierung umfasst.

Gemeinsame Anstrengungen in der Roboterentwicklung

Um das Potenzial dieser neuen Robotermodelle zu erweitern, arbeitet Google mit Apptronik zusammen, um humanoide Roboter zu entwickeln, die die Fähigkeiten von Gemini 2.0 nutzen. Darüber hinaus arbeitet Google mit ausgewählten, vertrauenswürdigen Branchenführern wie Agile Robots, Agility Robotics, Boston Dynamics und Enchanted Tools zusammen, um die zukünftigen Möglichkeiten von Gemini Robotics-ER zu erforschen.

Pionierarbeit für die Zukunft der Robotik

Indem Google DeepMind Roboter mit der Fähigkeit ausstattet, komplexe Aufgaben mit größerer Präzision und Flexibilität zu verstehen und auszuführen, ebnet es den Weg für eine Zukunft, in der sich Roboter nahtlos in verschiedene Facetten des täglichen Lebens integrieren und sowohl das private als auch das berufliche Umfeld bereichern können.

Quelle & Bilder