ニュース
物理ロボットのためのAIモデル「Gemini Robotics」 Google DeepMind
2025年3月13日 13:25
Google DeepMindは12日、物理的なロボットの領域で動作させるためのAIモデル「Gemini Robotics」など、Gemini 2.0をベースにした新たな取り組みを発表した。
発表内容は主に2つ。「Gemini Robotics」は、ロボットの制御を目的とし、物理的な動作を新たな出力形態として追加した高度な視覚言語行動(VLA)モデル。もう1つの「Gemini Robotics-ER」は、Geminiモデルに空間理解能力を追加したもの。ロボット工学の専門家が、Geminiの身体化推論(ER)能力を使用して独自のプログラムを実行できるようにする。
Googleでは、Gemini Roboticsの一環として、Apptronikと提携し、Gemini 2.0を搭載した次世代の人型ロボットを開発中。また、Agile Robots、Agility Robots、Boston Dynamics、Enchanted Toolsらのテスターと協力し、Gemini Robotics-ERの将来展開に向けた作業を進めているという。
Gemini Roboticsは、Gemini 2.0を基盤としながら、ロボットが活用される物理シーンにおける、汎用性、インタラクティブ性、器用さなどの領域を強化している。Gemini Roboticsでは、新しい状況に一般化し、トレーニングで一度も見たことのないタスクも含めた対応力を高めている。
また、直感的にインタラクティブに機能する。Geminiの言語理解能力を活用し、日常会話の言葉や多くの言語で表現されたコマンドを理解し、反応する。物体を落としたときや、誰かが物体を移動させた場合などには、Gemini Roboticsがすぐに再計画を立てて作業を続行。これは、「予期せぬことが日常的に続く現実世界でロボットが活躍するために不可欠な能力」としている。
Gemini Robotics-ERは、ロボット動作のための視覚言語モデルとなり、Geminiの空間理解、特に空間推論に重点を置いているという。これにより元々のGemini 2.0が持つ、指さしや3D検出などを大幅に向上。空間推論とGeminiのコーディング能力を組み合わせることで、例えば、コーヒーカップを視覚で認識した場合、モデルは、カップの取っ手を掴むための2本の指でつまむ動作と、カップに近づくための安全な軌道を直感的に理解できるという。こうした能力をGemini 2.0より2~3倍に高めている。
また、AIモデルだけでなく、ロボット工学を含めた安全性アプローチも導入。社内での倫理規定のほか外部専門家とも協力し、ロボットアプリケーションにおける身体化AIにおける課題把握や安全対策などを行なう。