1. はじめに
前回までの連載で作成したレストラン検索では、条件にジャンル「イタリアン」を指定するにはユーザーは一字一句間違えずに語を入力する必要がありました。これではコマンド入力と変わらず、自然言語対話の特徴である「ユーザーが自由に操作できる環境」にほど遠いと言えます。
「イタめし」「イタリア料理」等でも「イタリアン」を指定できるようになればもっと自由度が上がるのですが、単純にジャンルの要素としてこれらの語を追加するだけでは、データベースの情報と一致しないため、認識はできても検索の条件としては使えません。
このような問題を解決するのがAnswers Anywhereのシノニム(同義語)の機能です。シノニムを使うことでエージェント・ネットワークの語彙を増やし、ユーザーに表現の自由を与えます。
またシノニムをうまく使うことで、語彙の開発生産性や管理性の向上にも役立てることができます。記事の後半ではその点についても触れたいと思います。
2. シノニム(同義語)とは
エージェント・ネットワークはエージェントに定義された語(KeywordプロパティやFileプロパティに記述した語など)をもとにユーザー入力を認識します。シノニムとはこの語に対する同義語のことです。例えば「イタリアン」という語(この語をターゲットと呼びます)に対して「イタめし」というシノニムを与えると、エージェント・ネットワークはユーザーの入力「イタめし」は「イタリアン」と同義であると解釈します。
図1にエージェントでのシノニムの動作概要を示します。エージェントにシノニム辞書ファイルが設定されていない状態では、入力にターゲットが含まれているかどうかを調べ、含まれていればクレームを出す、含まれていないならば出さないといった動きをします。
一方、シノニム辞書ファイルが設定されている場合は、ターゲットが入力に含まれるかどうか、ターゲットのシノニムが辞書に存在しないかも調べます。存在するのであればクレームをし、ターゲットをエージェントの出力とします(注1)。
厳密にはポリシーのアクション節で*.targetと記述されている場合はターゲット(図では「イタリアン」)、*.matchedと記述されている場合はマッチした入力語を出力します(図では「イタめし」)。field.templateの既定動作は前者を出力するように設定されています。
3. シノニム辞書ファイルの書式
エージェントはシノニム辞書ファイルを1つ持つことができます。シノニム辞書ファイルの中にはそのエージェントの中で参照するかどうかにかかわらず複数のターゲットを含めることができます。その書式をリスト1に示します。{targetN}にはターゲットを記述し、{wordNn}にはそれに対するシノニムを記述します。
{target1}: {word11},{word12},... {target2}: {word21},{word22},... {target3}: {word31},{word32},... :
リスト2に記述例を示します。この定義により入力「イタめし」や「イタリア料理」が「イタリアン」と同義であると解釈され、「中国料理」は語「中華」と同義であると解釈されるようになります。
イタリアン: イタめし,イタリア料理 中華: 中国料理