Googleは、6月24日、ロボットデバイス向けのVLA(視覚言語アクション)モデル「Gemini Robotics On-Device」を発表した。
Gemini Robotics On-Deviceは、双腕ロボット向けのロボティクス基盤モデルで、ローカル環境で効率的に動作するように最適化されている。データネットワークから独立して動作するため、レイテンシの影響を受けやすいアプリケーションに向いており、接続が途切れやすい、またはまったくない環境でも堅牢性を保つ。
開発者がGemini Robotics On-Deviceを自身の環境で簡単に試せるように、Gemini Robotics SDKも公開されている。テスタープログラムへの登録でSDKにアクセスできる。
これは、3月に発表されたモデル「Gemini Robotics」のタスク汎用化機能・器用さを基盤に設計されている。自然言語の指示に従い、バッグのジッパーを開けたり、衣服を畳んだりといった高度な器用さが求められる作業をロボット上で実行できる。
また、開発者はモデルをカスタマイズすることで、アプリケーションのパフォーマンスを向上させることが可能。初見の新しいタスクに対しても、基礎知識の汎用化によって、わずか50~100回のデモンストレーションで適応できることがわかっている。
- 関連リンク
この記事は参考になりましたか?
- この記事の著者
-
CodeZine編集部(コードジンヘンシュウブ)
CodeZineは、株式会社翔泳社が運営するソフトウェア開発者向けのWebメディアです。「デベロッパーの成長と課題解決に貢献するメディア」をコンセプトに、現場で役立つ最新情報を日々お届けします。
※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です