Turingは、600万フレームに及ぶ世界最大規模の自動運転マルチモーダルデータセット「CoVLA-Dataset」の全データを、オープンデータとして12月23日に公開した。あわせて、同データセットを活用して指定された未来軌跡への追随性を強化した生成世界モデル「Terra」のモデルファイル、およびソースコードも公開している。
「CoVLA-Dataset」は、すべてのシーンの各フレームに自動車のセンサ情報、操作情報、シーンの言語キャプション、未来の車の軌跡を統合した、世界最大規模のVLA(Vision-Language-Action)データセット。同データセットの研究論文は、コンピュータービジョンの主要な国際会議「WACV 2025」にて採択されている。
「Terra」は、現実世界の物理法則や物体間の相互作用といった複雑な状況を理解して、リアルな運転シーンを動画として出力可能な生成世界モデル。「CoVLA-Dataset」による追加学習で指定された、未来軌跡に応じた映像生成能力(行動指示追随性)を強化した。
さらに、世界モデルが与えられた行動指示に、どれだけ正確に追従できるか定量的に評価可能なベンチマーク「ACT-Bench」が発表されている。同ベンチマークは、これまで世界モデルの評価において、映像のリアリティや特定タスク性能に偏ったものが中心となっており、与えた行動指示への忠実性を客観的に測る基準が不足していることを受けて公開され、世界モデルにおける行動追従性能を評価するための、客観的な指標を得られるようになる。
この記事は参考になりましたか?
- この記事の著者
-
CodeZine編集部(コードジンヘンシュウブ)
CodeZineは、株式会社翔泳社が運営するソフトウェア開発者向けのWebメディアです。「デベロッパーの成長と課題解決に貢献するメディア」をコンセプトに、現場で役立つ最新情報を日々お届けします。
※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です