Turingは、日本初となる自動運転向けVLAモデルデータセット「CoVLA(コブラ) Dataset」を開発し、その一部を公開するとともに、コンピュータービジョンの主要な国際会議である「WACV 2025(IEEE/CVF Winter Conference on Applications of Computer Vision 2025)」にて、同データセットの研究論文「CoVLA: Comprehensive Vision-Language-Action Dataset for Autonomous Driving」が採択されたことを、9月10日に発表した。
この成果は、経済産業省/NEDOによる生成AI開発支援「GENIAC」における開発の一環として実施され、Turingはほかにも自動運転マルチモーダルモデルのベースとなる日本語LLM「LIama-3-heron-brain-70B,8B」や、高速なマルチモーダル分散学習ライブラリ「vlm-recipes」、大規模な視覚-言語データセット「Wikipedia-Vision-JA」「Cauldron-JA」といった、複数の成果を公開している。
「CoVLA(Comprehensive Vision-Language-Action) Dataset」は、マルチモーダル大規模言語モデル領域において、AI学習用にアノテーションされた大規模なデータセットが不足していることがボトルネックとなり、E2E自動運転システムの経路計画における応用研究がほとんどみられないという課題を解決すべく開発された、日本初の自動運転向けVLAモデルデータセット。
車載センサーデータを含む80時間以上の運転データで構成されており、データの規模とアノテーションの多様さにおいて国外の既存データセットを上回っている。データ処理からキャプション生成まで自動化したスケーラブルな手法で構築しており、同データセットを用いて開発したVLAモデル「CoVLA-Agent」は、画像から得た運転環境を自然言語で詳細に説明して、適切な経路計画を生成できる。
「CoVLA Dataset」を活用したマルチモーダル大規模言語モデルが、さまざまな運転シナリオにおいてどの程度の能力を発揮するかを検証した結果、同モデルが一貫性のある言語生成と行動出力において優れた性能を示し、視覚・言語・行動データを用いたVLAモデルが、自動運転分野において効果的なアプローチであることを確認している。
今後は、学術機関向けに「CoVLA Dataset」の全データセットを公開することも視野に、より安全かつ信頼性の高い自動運転システムの実現を目指す。
この記事は参考になりましたか?
- この記事の著者
-
CodeZine編集部(コードジンヘンシュウブ)
CodeZineは、株式会社翔泳社が運営するソフトウェア開発者向けのWebメディアです。「デベロッパーの成長と課題解決に貢献するメディア」をコンセプトに、現場で役立つ最新情報を日々お届けします。
※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です