米Microsoftは、AIの品質と安全性に関する課題への対処を可能にする、生成AIアプリ開発者向けの新たな機能を、「Azure AI Studio」にて提供することを3月28日(現地時間)に発表した。
今回、発表されたのは、プロンプトインジェクション攻撃を検出してブロックするPrompt Shields、モデル出力内の「ハルシネーション」を検出するためのGroundedness detection、安全で責任ある出力に向けてモデルの動作を制御するためのSafety system messages、ジェイルブレイク攻撃やコンテンツリスクの生成に対するアプリケーションの脆弱性を評価するためのSafety evaluations、どのモデルの入力、出力、エンドユーザーが、コンテンツフィルタをトリガして緩和策を通知しているかを把握できるようにするRisk and safety monitoringで、すでに利用可能となっているものもある。
Prompt Shieldsは、大規模言語モデル(LLM)システムとユーザーインタラクションの整合性を保護する機能で、悪意のある指示のプロンプトを分析することで、ジェイルブレイク、直接プロンプト攻撃、ユーザープロンプトインジェクション攻撃を防ぐ機能、間接プロンプトインジェクション攻撃をブロックする機能を備えており、近日中にプレビュー提供を開始する。
生成AIにおける「ハルシネーション」は、常識と一致しない出力または根拠となるデータを欠いた出力を、モデルが自信を持って生成してしまうインスタンスであり、Groundedness detectionはLLM出力の品質をサポートすべく、テキスト内の根拠のない内容を検出する機能で、近日中に公開される。
Safety system messagesは、効果的なシステムメッセージを作成できるようにするためのテンプレートであり、Microsoft Researchによって有害なコンテンツの生成と悪用を防ぐことを目的に開発され、開発者がより短時間で高品質なアプリの構築を開始するのに役立つ。こちらも、近日中に公開される。
Safety evaluationsは、ジェイルブレイクの試み、暴力的、性的、自傷行為に関連したコンテンツ、憎しみに満ちた不公平なコンテンツの作成に対するアプリケーションの感受性を評価する。また、適切な緩和策を知らせるべく、評価結果について自然言語で説明することも可能となっている。開発者は、独自のテストデータセットを使用してアプリケーションを評価できるほか、Microsoft Researchが開発した敵対的プロンプトテンプレートを用いた、高品質のテストデータセットの作成にも対応する。同機能は、すでにプレビュー利用が可能となっている。
Risk and safety monitoringは、Azure OpenAIサービスにおけるコンテンツフィルタとブロックリストによって、ブロックされたユーザーの入力とモデルによる出力の量、重大度、カテゴリを時間の経過とともに視覚化できる。コンテンツレベルの洞察に加えて、ユーザーレベルでの潜在的な不正行為のレポートを可能にし、エンドユーザーが危険な要求や有害な要求をAzure OpenAIサービスモデルへ継続的に送信する傾向を、より明確に把握できるようになる。この機能は、近日的にプレビュー提供が開始される。
この記事は参考になりましたか?
- この記事の著者
-
CodeZine編集部(コードジンヘンシュウブ)
CodeZineは、株式会社翔泳社が運営するソフトウェア開発者向けのWebメディアです。「デベロッパーの成長と課題解決に貢献するメディア」をコンセプトに、現場で役立つ最新情報を日々お届けします。
※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です