
Google DeepMind 推出 Gemini 2.0 進軍機器人領域
Google DeepMind 在人工智慧(AI)領域不斷取得重大進展,展示了 Gemini、Imagen、Veo、Gemma 和 AlphaFold 等模型的進步。在最近的公告中,該團隊正式進軍機器人領域,推出了兩款基於 Gemini 2.0 的創新模型:Gemini Robotics和Gemini Robotics-ER。
Gemini Robotics 簡介
Gemini Robotics 代表了一種尖端的視覺-語言-動作 (VLA) 模型,該模型將物理動作作為輸出方式進行集成,專為機器人控製而設計。這個基於 Gemini 2.0 架構的突破性模型展現出了非凡的理解訓練中未曾遇到過的情況的能力。
根據Google介紹,Gemini Robotics 性能卓越,在廣泛的泛化基準上,其成功率是其他領先 VLA 車型的兩倍。該功能透過對多種語言的強大自然語言理解得到增強,使其能夠更有效地解釋人類的命令。
無與倫比的靈巧性
Gemini Robotics 的突出特點之一是其靈活性。谷歌聲稱該模型可以解決需要精確處理的複雜、多步驟任務。著名的例子包括折疊紙和將零食包裝到 Ziploc 袋中。
Gemini Robotics-ER 的功能
另一方面,Gemini Robotics-ER 是一種專為空間推理而客製化的先進視覺語言模型。該模型為機器人專家提供了一個開箱即用的機器人控制解決方案,涵蓋了感知、狀態估計、空間感知、規劃和程式碼生成等基本功能。
機器人開發的合作努力
為了拓展這些新型機器人模型的潛力,Google與 Apptronik 合作開發利用 Gemini 2.0 功能的人形機器人。此外,Google還與 Agile Robots、Agility Robotics、Boston Dynamics 和 Enchanted Tools 等精選的值得信賴的行業領袖合作,探索 Gemini Robotics-ER 的未來可能性。
開拓機器人技術的未來
透過讓機器人具有以更高的精度和靈活性理解和執行複雜任務的能力,Google DeepMind 為未來機器人無縫融入日常生活的各個方面鋪平了道路,改善了個人和專業環境。
發佈留言 ▼