Preferred Networks(以下、PFN)は、自律稼働デバイス向けに開発した視覚言語モデル「PLaMo-VL」を4月3日に公開した。8Bモデル「PLaMo 2.1-8B-VL」と、より小型な2Bモデル「PLaMo 2.1-2B-VL」が同時にリリースされており、両モデルのモデルウェイトおよび技術情報ブログが提供されている。

PLaMo-VLはPFNの生成AI基盤であるPLaMo 2.1-8BおよびPLaMo 2.1-2Bをベースに、画像理解の機能を統合したマルチモーダル基盤モデルである。ドローンやロボット、監視カメラ、自動車などのエッジデバイス上でも処理できるよう、限られた計算資源でも高精度に動作することを重視して設計されている。8BモデルのPLaMo 2.1-8B-VLは、日本語Visual Question Answering(以下、VQA)、Visual Groundingといったベンチマークで、同規模の既存オープンモデルよりも高い性能を示している。
実証実験で、これらのモデルは工場の作業タスク分類や発電プラント設備の異常検出などの企業実証実験で活用された。作業タスク分類では作業者の姿勢や周辺環境だけでなく、使用工具の位置・種類もVisual Groundingで特定し、VQAによって作業内容の推定を実現した。ドローン画像を用いた異常検出では、正常時と異常時の画像比較に基づき、意味のある変化を抽出し、異常の区画やラベルを生成した。
実証実験において、PLaMo 2.1-8B-VLは、Qwen3-VL-235B-A22B-Instructなどのオープンモデルを上回るベンチマーク評価を獲得。これにより、作業手順の逸脱検出や点検・監視業務での見落とし防止など、産業現場での実用化が期待されている。また、経済産業省および国立研究開発法人新エネルギー・産業技術総合開発機構(NEDO)が推進する生成AI基盤モデル開発プロジェクト「GENIAC(Generative AI Accelerator Challenge)」第3期では、この技術を用いてモデル賞を受賞している。
- 関連リンク
この記事は参考になりましたか?
- この記事の著者
-
CodeZine編集部(コードジンヘンシュウブ)
CodeZineは、株式会社翔泳社が運営するソフトウェア開発者向けのWebメディアです。「デベロッパーの成長と課題解決に貢献するメディア」をコンセプトに、現場で役立つ最新情報を日々お届けします。
※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です
