
Google DeepMind、Gemini 2.0でロボット工学に進出
Google DeepMind は、Gemini、Imagen、Veo、Gemma、AlphaFold などのモデルの進歩を披露しながら、人工知能 (AI) の分野で大きな進歩を遂げ続けています。最近の発表では、同チームは Gemini 2.0 をベースにした 2 つの革新的なモデル、Gemini RoboticsとGemini Robotics-ERを導入し、ロボット工学分野に正式に参入しました。
ジェミニロボティクスの紹介
Gemini Robotics は、ロボット制御用に特別に設計された、物理的な動作を出力様式として統合する最先端の視覚・言語・動作 (VLA) モデルです。Gemini 2.0 アーキテクチャに基づいて構築されたこの画期的なモデルは、トレーニング中に遭遇しなかった状況を理解する並外れた能力を発揮します。
Google によると、Gemini Robotics はパフォーマンスに優れており、広範な一般化ベンチマークで他の主要な VLA モデルと比較して 2 倍の成功率を達成しています。この機能は、さまざまな言語にわたる強力な自然言語理解によって強化されており、人間のコマンドをより効果的に解釈できます。
比類のない器用さ
ジェミニ・ロボティクスの際立った特徴の 1 つは、その器用さです。Google は、このモデルは精密な取り扱いを必要とする複雑で多段階のタスクをこなせると主張しています。注目すべき例としては、折り紙を折ったり、スナックをジップロック バッグに詰めたりすることが挙げられます。
Gemini Robotics-ERの機能
一方、Gemini Robotics-ER は、空間推論向けにカスタマイズされた高度な視覚言語モデルとして機能します。このモデルは、認識、状態推定、空間認識、計画、コード生成などの重要な機能を網羅した、ロボットを制御するためのすぐに使えるソリューションをロボット工学者に提供します。
ロボット開発における共同の取り組み
これらの新しいロボット モデルの可能性を広げるために、Google は Apptronik と提携し、Gemini 2.0 の機能を活用したヒューマノイド ロボットを開発しています。さらに、Google は Agile Robots、Agility Robotics、Boston Dynamics、Enchanted Tools などの厳選された信頼できる業界リーダーと連携し、Gemini Robotics-ER の将来の可能性を模索しています。
ロボット工学の未来を切り拓く
Google DeepMind は、ロボットに高度な精度と柔軟性を備えて複雑なタスクを理解して実行する能力を装備することで、ロボットが日常生活のさまざまな側面にシームレスに統合され、個人環境と職場環境の両方を向上させる未来への道を切り開いています。
コメントを残す ▼