Google DeepMindは、ロボット工学向けに開発されたGemini 2.0ベースのモデル「Gemini Robotics」を発表した。
Gemini Roboticsは、Gemini 2.0をベースに構築された高度な視覚・言語・動作(VLA)モデルである。ロボットを直接制御するための新しい出力様式として物理的な動作が組み込まれている。
周囲の環境とシームレスにやり取りできるインタラクティブ性の高さや、精密な操作を実行できる器用さを備えていることが特徴。Gemini Roboticsは、さまざまなロボットタイプにも適応できるように設計されている。
また、高度な視覚言語モデル「Gemini Robotics-ER」も発表された。こちらも、Geminiベースのロボット開発向けモデルで、Geminiの具現化推論(ER)機能を使用して独自のプログラムを実行できる。特に空間推論に重点を置いており、認識や空間理解、コード生成など、ロボット制御に必要なすべての手順を実行できるという。
Google DeepMindは、「この2つのモデルにより、さまざまなロボットがこれまで以上に幅広い実世界のタスクを実行できるようになる」と述べている。
これらのモデルを用いた実際のアプリケーション開発に向けて、同社はApptronikと提携し、Gemini 2.0を使用した次世代のヒューマノイド ロボットを構築しているところだという。
- 関連リンク
この記事は参考になりましたか?
- この記事の著者
-
CodeZine編集部(コードジンヘンシュウブ)
CodeZineは、株式会社翔泳社が運営するソフトウェア開発者向けのWebメディアです。「デベロッパーの成長と課題解決に貢献するメディア」をコンセプトに、現場で役立つ最新情報を日々お届けします。
※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です