NTTは7月7日、不特定多数からの問い合わせに対して、漏洩リスクを抑えながら応答精度を高める手法を確立したと発表した。これにより、利用者に関わるデータの扱いに安全性と実用性の両立が求められる分野において、将来的なリスクに備えたLLM活用が期待される。
LLMの応答を誘導する手法のひとつである文脈内学習は、定型化された構造をもつ問い合わせ対応の自動化などに活用が見込まれる。一方、この手法では、過去の問い合わせ内容が別の利用者への回答に反映されるため、統計的に情報が漏洩するリスクがあった。
近年では、漏洩リスクを低減する手法として、例題に単語レベルでノイズを加えることで安全性を保つ「差分プライベートなICL(以下、DP-ICL)」も用いられている。しかし、この手法にも、ノイズの影響により例題の内容が曖昧になり、応答の精度が大きく低下するという課題があった。

今回の研究では、DP-ICLにおける、ノイズがLLMの応答傾向の与える影響をベイズ推論の枠組みで理論的に解析した。結果として、無関係な単語を生成候補から除外することでノイズによる悪影響を緩和できること、またルールを特徴づける単語の生成確率を意図的に高めることで、LLMが正しい応答傾向をより高精度に推定できることが明らかになった。
これらの理論的知見に基づき、同研究では、差分プライバシーを維持しつつルールの推定制度を向上させる新たな例題生成手法として、Plausible Token Amplification(PTA) を提案している。PTAは無関係な語の生成を抑えながら、ルールを特徴づける単語の生成確率を高めることで、ノイズを加えて安全な例題を生成することが可能だ。


なお、現在のPTAは入力と応答があらかじめ定められた形式だが、同社は今後、柔軟な構造の入力を扱えるよう応用し、幅広い分野でのLLM活用実現を目指すものとしている。
この記事は参考になりましたか?
- この記事の著者
-
CodeZine編集部(コードジンヘンシュウブ)
CodeZineは、株式会社翔泳社が運営するソフトウェア開発者向けのWebメディアです。「デベロッパーの成長と課題解決に貢献するメディア」をコンセプトに、現場で役立つ最新情報を日々お届けします。
※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です