Turingは、新たな日本語VLM「Heron-NVILA-Lite-15B/2B/1B」を、5月12日に公開した。同VLMの開発は、経済産業省/NEDOによる生成AI研究支援プログラム「GENIAC」の一環として行われている。
Heron-NVILA-Lite-15Bは、日本語圏における背景や文脈を理解した150億パラメータのオープンソース視覚-言語モデル。日本語-画像応答ベンチマーク「Heron-Bench」ではスコア73.5を記録しており、同規模の最新公開モデルを上回っている。また、画像とテキストを交互に学習させるインターリーブ形式が日本語の事前学習に効果があることが確認された。ソースコードは、Hugging Faceにて公開されている。
あわせて公開されたHeron-NVILA-Lite-2Bは20億パラメータのモデルで、iPhone上にて完全ローカルかつ高速な推論を実現した。
ほかにも、インターリーブ形式で構築された世界最大となる日本語-画像の大規模データセット「MOMIJI」や、世界最大規模の言語と三次元情報をともなう自律移動データセット「STRIDE-QAデータセット」も公開されている。
MOMIJI(Modern Open Multimodal Japanese filtered Dataset)は、インターリーブ形式で構築された日本語視覚-言語モデルにおける世界最大の事前学習用大規模データセットで、2億4900万枚の画像URLとテキストJSONL形式で公開しており、後日に同社のテックブログでの詳細な解説を予定する。
STRIDE-QA(SpatioTemporal Reasoning In Driving Environments QA)は、同社が都内で収集した3500時間超のカメラ/LiDAR/各種センサの運転データをもとに、100時間/20000シーンを抽出して構築した、世界最大規模の三次元自律移動データセット。各シーンでは、車両や歩行者といったすべての交通オブジェクトに一貫したIDと三次元バウンディングボックスを付与して、空間だけでなく前後の時間関係まで連続的に追跡できる構成となっている。さらに、「横断歩道に歩行者はいるか」「2秒後に前方車との距離は?」といった対象物視点と自車視点の質問‐回答を計1263万組生成しており、AIが状況を言語で説明して、将来を推測する性能の評価にも対応する。データセットは、STRIDE-QA-miniとして200シーン/約10万組 Q&Aを学術機関向けに公開済みで、今後は全データを含むフルセットの公開も予定している。
この記事は参考になりましたか?
- この記事の著者
-
CodeZine編集部(コードジンヘンシュウブ)
CodeZineは、株式会社翔泳社が運営するソフトウェア開発者向けのWebメディアです。「デベロッパーの成長と課題解決に貢献するメディア」をコンセプトに、現場で役立つ最新情報を日々お届けします。
※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です