NABLASは、同社が自社開発した150億パラメータ規模の大規模視覚言語モデル(Vision-Language Model:VLM)「NABLA-VL」を、5月27日に公開した。
NABLA-VLは、経済産業省とNEDOが実施する国内の生成AI開発力強化プロジェクト「GENIAC(Generative AI Accelerator Challenge)」において開発されたもので、テキスト・画像・動画を理解する能力を備えており、日本語、英語においてバランスの取れたバイリンガル対応かつ高性能マルチモーダルAIとして研究・産業の双方での利活用を目指している。
同モデルでは、トークン圧縮手法(画像から必要な情報だけを抽出して、処理すべきデータ量を削減する方法)を適用し、視覚トークンを総数の87.5%分を除去することによって、学習時間を約50%短縮するとともに、推論時間も23%短縮したことで、モデル運用にかかるコストと開発時間の大幅な削減を実現した。
マルチモーダルAIを評価するための複数の日英ベンチマークにおいて、他の国産モデルを上回る性能を達成しており、精度と汎用性の両方において高い信頼性を実現している。
なお、モデル本体と学習/推論コードはApache 2.0ライセンスで公開されているので、研究者・開発者にとって利用しやすい。
この記事は参考になりましたか?
- この記事の著者
-
CodeZine編集部(コードジンヘンシュウブ)
CodeZineは、株式会社翔泳社が運営するソフトウェア開発者向けのWebメディアです。「デベロッパーの成長と課題解決に貢献するメディア」をコンセプトに、現場で役立つ最新情報を日々お届けします。
※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です