NTTは6月1日、マルチモーダルAIモデルによる推論の説明性と信頼性を高める新技術「根拠強化デコーディング」を発表した。
従来のマルチモーダルAI(大規模視覚言語モデル:LVLM)は、画像とテキストから推論の根拠を生成し最終回答を導出する「Chain-of-Thought(CoT)」方式を採用していたが、モデルが根拠を十分活用せず結果と根拠が一致しない問題があった。NTTは、根拠と画像を入力に分割し、両者の情報を重み付けして組み合わせることでこの課題を解決した。
「根拠強化デコーディング」は、次のトークン予測を画像と根拠に基づく2つの分布に分離し、その積で出力する設計とした。これにより画像と根拠の双方を直接推論過程で利用できる。また、計算コストが増加せず追加学習も不要なプラグアンドプレイ型で、既存のLVLMモデルに容易に適用可能だ。
実験では、根拠強化デコーディングの導入で推論性能と根拠への忠実性が大幅に向上した。特に高品質な推論根拠を与えた場合、AIはその内容を忠実に反映した回答を生成できることが確認された。
この技術により、医療や重要な意思決定支援、AIエージェント連携など、高い説明性と信頼性が必要な分野での活用が見込まれる。NTTは今後もAIの説明性・信頼性向上技術の開発に取り組む。
この記事は参考になりましたか?
- この記事の著者
-
CodeZine編集部(コードジンヘンシュウブ)
CodeZineは、株式会社翔泳社が運営するソフトウェア開発者向けのWebメディアです。「デベロッパーの成長と課題解決に貢献するメディア」をコンセプトに、現場で役立つ最新情報を日々お届けします。
※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です
