CodeZineニュース

Preferred Networksが視覚言語モデル「PLaMo-VL」を公開、産業向け高精度AIを推進

2026/04/06 16:40

ポスト

ポスト

　Preferred Networks（以下、PFN）は、自律稼働デバイス向けに開発した視覚言語モデル「PLaMo-VL」を4月3日に公開した。8Bモデル「PLaMo 2.1-8B-VL」と、より小型な2Bモデル「PLaMo 2.1-2B-VL」が同時にリリースされており、両モデルのモデルウェイトおよび技術情報ブログが提供されている。

　PLaMo-VLはPFNの生成AI基盤であるPLaMo 2.1-8BおよびPLaMo 2.1-2Bをベースに、画像理解の機能を統合したマルチモーダル基盤モデルである。ドローンやロボット、監視カメラ、自動車などのエッジデバイス上でも処理できるよう、限られた計算資源でも高精度に動作することを重視して設計されている。8BモデルのPLaMo 2.1-8B-VLは、日本語Visual Question Answering（以下、VQA）、Visual Groundingといったベンチマークで、同規模の既存オープンモデルよりも高い性能を示している。

　実証実験で、これらのモデルは工場の作業タスク分類や発電プラント設備の異常検出などの企業実証実験で活用された。作業タスク分類では作業者の姿勢や周辺環境だけでなく、使用工具の位置・種類もVisual Groundingで特定し、VQAによって作業内容の推定を実現した。ドローン画像を用いた異常検出では、正常時と異常時の画像比較に基づき、意味のある変化を抽出し、異常の区画やラベルを生成した。

使用工具を手掛かりに、工場内の作業タスクをゼロショット（評価対象現場のデータを学習に用いず、対象現場への追加学習も行わない設定を指す）で認識正解：エアブロー／PLaMo 2.1-8B-VL推論結果：エアブロー ※実証実験データ収集協力：ファナック株式会社

正常時の参照画像（右）に対して、異常検出対象画像（左）ではタオルと工具を検出正解ラベル：タオル／PLaMo 2.1-8B-VL推論結果：タオル正解ラベル：工具／PLaMo 2.1-8B-VL推論結果：工具 ※実証実験データ収集協力：KDDI株式会社

　実証実験において、PLaMo 2.1-8B-VLは、Qwen3-VL-235B-A22B-Instructなどのオープンモデルを上回るベンチマーク評価を獲得。これにより、作業手順の逸脱検出や点検・監視業務での見落とし防止など、産業現場での実用化が期待されている。また、経済産業省および国立研究開発法人新エネルギー・産業技術総合開発機構（NEDO）が推進する生成AI基盤モデル開発プロジェクト「GENIAC（Generative AI Accelerator Challenge）」第3期では、この技術を用いてモデル賞を受賞している。

関連リンク: プレスリリース

Preferred Networks

「PLaMo」

この記事は参考になりましたか？

印刷用を表示

ポスト

この記事の著者: CodeZine編集部（コードジンヘンシュウブ）

CodeZineは、株式会社翔泳社が運営するソフトウェア開発者向けのWebメディアです。「デベロッパーの成長と課題解決に貢献するメディア」をコンセプトに、現場で役立つ最新情報を日々お届けします。

※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です

この著者の最近の執筆記事