Microsoftは2月4日(現地時間)、オープンウェイトの大規模言語モデル(LLM)に対するバックドア検知手法に関する新たな研究を発表した。近年、AIモデルが不正に改変されるリスクが高まっており、特に「モデル・ポイズニング」とも呼ばれる手法で、特定のトリガー入力が与えられた際にのみ意図しない動作をするバックドア問題の検出が大きな課題となっている。
今回発表された研究では、LLMのバックドア有無を検知するための3つの特徴を特定した。1つ目は、バックドアが仕込まれたモデルで、トリガーが入力された際に「ダブルトライアングル」型の独特なアテンションパターンが現れる点である。2つ目は、バックドア付きモデルは自らポイズニング・データを漏出する傾向が強く、訓練時に使われたトリガーや関連データを抽出できる可能性が高い。3つ目は、バックドアの発火が厳密なトリガーに依存せず、部分一致でも発動する曖昧さがあることである。
これらの特徴を利用し、研究チームは効率的なスキャナーを開発した。このスキャナーはモデルファイルへのアクセスさえあれば追加学習なしにモデルの前方伝播のみで動作し、特定のバックドア挙動やトリガー情報無しでも検出が可能。また、多くのオープンソースLLMや様々なファインチューニング手法に対して検証を行い、誤検知率が低いことも示した。
ただしAPI経由のみの利用や、出力が確定しないタイプのバックドアの検出には限定的であり、全てのリスクを排除できるものではない。今後は多様なモデルやさらなる攻撃手法にも対応していく必要があるとし、LLMの信頼性・安全性向上への貢献を目指す。
- 関連リンク
この記事は参考になりましたか?
- この記事の著者
-
CodeZine編集部(コードジンヘンシュウブ)
CodeZineは、株式会社翔泳社が運営するソフトウェア開発者向けのWebメディアです。「デベロッパーの成長と課題解決に貢献するメディア」をコンセプトに、現場で役立つ最新情報を日々お届けします。
※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です
