Google présente Gemini Robotics avec le nouveau modèle Gemini 2.0 pour des performances robotiques améliorées

Google DeepMind se lance dans la robotique avec Gemini 2.0

Google DeepMind continue de progresser significativement dans le domaine de l’intelligence artificielle (IA), mettant en avant les avancées de modèles tels que Gemini, Imagen, Veo, Gemma et AlphaFold. L’équipe a récemment annoncé son entrée officielle dans le secteur de la robotique avec le lancement de deux modèles innovants basés sur Gemini 2.0 : Gemini Robotics et Gemini Robotics-ER.

Présentation de Gemini Robotics

Gemini Robotics propose un modèle vision-langage-action (VLA) de pointe intégrant les actions physiques comme modalité de sortie, spécialement conçu pour le contrôle robotique. Ce modèle révolutionnaire, basé sur l’architecture Gemini 2.0, démontre une capacité extraordinaire à comprendre des situations qu’il n’a pas rencontrées lors de sa formation.

Selon Google, Gemini Robotics excelle en termes de performances, atteignant un taux de réussite deux fois supérieur à celui des autres modèles VLA leaders lors de tests de généralisation approfondis. Cette capacité est renforcée par sa solide compréhension du langage naturel dans différentes langues, ce qui lui permet d’interpréter plus efficacement les commandes humaines.

https://www.youtube.com/watch?v=sY20x_tyWpQ

Gemini Robotics: Generality in action (https://www.youtube.com/watch?v=sY20x_tyWpQ)

Dextérité inégalée

L’une des caractéristiques remarquables de Gemini Robotics est sa dextérité. Google affirme que ce modèle peut s’attaquer à des tâches complexes en plusieurs étapes nécessitant une manipulation précise. Parmi les exemples notables, citons le pliage d’origami et l’emballage de collations dans des sacs Ziploc.

Capacités de Gemini Robotics-ER

D’autre part, Gemini Robotics-ER constitue un modèle de langage visuel avancé, adapté au raisonnement spatial. Ce modèle offre aux roboticiens une solution clé en main pour le contrôle des robots, intégrant des fonctions essentielles telles que la perception, l’estimation d’état, la perception spatiale, la planification et la génération de code.

Efforts collaboratifs dans le développement de la robotique

Afin d’élargir le potentiel de ces nouveaux modèles robotiques, Google s’est associé à Apptronik pour développer des robots humanoïdes exploitant les capacités de Gemini 2.0. De plus, Google collabore avec des leaders reconnus du secteur, notamment Agile Robots, Agility Robotics, Boston Dynamics et Enchanted Tools, afin d’explorer les futures possibilités de Gemini Robotics-ER.

Pionnier de l’avenir de la robotique

En dotant les robots de la capacité de comprendre et d’exécuter des tâches complexes avec une précision et une flexibilité accrues, Google DeepMind ouvre la voie à un avenir où les robots pourront s’intégrer de manière transparente dans diverses facettes de la vie quotidienne, améliorant ainsi les environnements personnels et professionnels.

Source et images