
Google DeepMind 推出 Gemini 2.0 进军机器人领域
Google DeepMind 在人工智能 (AI) 领域继续取得重大进展,展示了 Gemini、Imagen、Veo、Gemma 和 AlphaFold 等模型的进步。在最近的一份声明中,该团队正式进入机器人领域,推出了两款基于 Gemini 2.0 的创新模型:Gemini Robotics和Gemini Robotics-ER。
Gemini Robotics 简介
Gemini Robotics 代表了一种先进的视觉-语言-动作 (VLA) 模型,该模型将物理动作作为输出模式进行集成,专为机器人控制而设计。这一开创性的模型基于 Gemini 2.0 架构构建,展现出非凡的理解能力,能够理解训练期间未曾遇到的情况。
据 Google 介绍,Gemini Robotics 性能卓越,在广泛的泛化基准测试中,其成功率是其他领先 VLA 模型的两倍。其强大的跨多种语言自然语言理解能力进一步增强了这一能力,使其能够更有效地解释人类命令。
无与伦比的灵巧性
Gemini Robotics 的一大突出特点是其灵活性。谷歌声称,该模型可以处理需要精确处理的复杂、多步骤任务。著名的例子包括折叠纸和将零食装入 Ziploc 袋中。
Gemini Robotics-ER 的功能
另一方面,Gemini Robotics-ER 是一种专为空间推理而定制的高级视觉语言模型。该模型为机器人专家提供了控制机器人的现成解决方案,涵盖了感知、状态估计、空间意识、规划和代码生成等基本功能。
机器人开发方面的合作努力
为了拓展这些新型机器人模型的潜力,Google 与 Apptronik 合作开发了利用 Gemini 2.0 功能的人形机器人。此外,Google 还与 Agile Robots、Agility Robotics、Boston Dynamics 和 Enchanted Tools 等精选的值得信赖的行业领导者合作,探索 Gemini Robotics-ER 的未来可能性。
开拓机器人技术的未来
通过使机器人具有以更高的精度和灵活性理解和执行复杂任务的能力,Google DeepMind 为未来机器人无缝融入日常生活的各个方面铺平了道路,改善了个人和专业环境。
发表回复 ▼