バーチャルヒューマンエージェントの仕組み
クーガーが開発する人型AIプラットフォーム「LUDENS(ルーデンス)」は、中枢となる「LudensCore」、視覚となる「VisualCortex」、言語能力となる「LanguageCortex」、そしてインターフェースとなる「バーチャルヒューマンエージェント(VHA)」で構成されている。
このLUDENSから生まれたのが、人型AIアシスタント「レイチェル」だ。レイチェルは3Dモデルで表現された人間らしい外見や表情、音声認識と自然言語処理などを用いて対話する能力、対話の文脈を理解して適切な応答を生成する知能や判断力を持ち合わせている。一言で定義するなら「コンピュータ上で人間の姿や振る舞いを再現している仮想人間」だ。
そんなバーチャルエージェントのアーキテクチャーを示したのが、以下の図である。

入力は、ユーザーの音声と画像の2つ。カメラが捉えた画像からユーザーの表情などを分析すると同時に、発話の音声データをテキストに変換して、対話システムで応答を生成する。その後、画像から得た情報と生成された応答テキストをもとに、3Dモデルの振る舞いを決定し、最終的に3Dモデルを通して応答と振る舞いを同時に出力する仕組みになっている。
対話システムの中身をより詳しく見てみよう。まず発話のテキストに含まれる情報を分析する。ユーザーの意図を理解して、対話履歴として保存した後に、過去の対応履歴などから行動を選択。その際、必要があれば、外部のリソースにもアクセスして、データを参照している。次の応答生成においては、より自然な文章になるよう、大規模言語モデル(以下、LLM)などを用いている。
改めて、対話システムとしてのバーチャルヒューマンエージェントを紐解いてみると、主に次のようなモジュールの集合体であると捉えることができる。
-
自然言語理解
- テキスト解析を用いて、ユーザーの発話内容(意図や感情)を理解する。
-
画像認識
- 画像解析を用いて、ユーザーを識別・表情や感情を理解する。
-
対話管理
- 文脈(ユーザーの状況・これまでの発話など)を管理し、次の行動を決定する。
- シナリオベースやルールベース、もしくはAIを用いた動的な行動選択する。
-
応答生成
- 応答内容を自然言語で表現する。
- LLMを活用することで、より自然で豊かな言い回しが可能に。
-
マルチモーダル出力
- 発話を含め、3Dモデルの口の動きや表情の変化、身振り・手振りといったアニメーションを追加する。
- 人間的な存在感や親しみやすさを演出し、ユーザーの没入感を高める。
バーチャルヒューマンエージェントの高度化において欠かせないのが、応答生成におけるLLMだ。最新情報や企業内情報のインプットには外部の知識ベースにAPI連携しておく必要があったり、ファインチューニングするためには一定の専門知識や技術力が必要であったりするものの、人間らしさを追求する上で、LLMは必要不可欠である。次に、バーチャルヒューマンエージェント開発におけるLLMの重要性について見ていこう。
自然な会話をするために欠かせないLLM

バーチャルヒューマンエージェントが取り扱う自然言語は、あいまいで多様性が高い。同じ意味でも、言い回しや語順が多岐にわたるし、ユーザーによって方言を使うこともあれば、言葉遣いも変わってくる。それに、テキストにすると同じ言葉でも、文脈によって異なる意味を持つこともある。(例:サーバー:料理を運ぶ人/コーヒーを淹れるときに使う容器/コンピュータ)また、実際の会話では主語が省かれるなど文法が無視されることもあり、単純な文字列の一致や正規表現だけでは処理しきれないのだ。
では逆に、人間が「自分の意図を理解して適切な応答が返ってきた」と感じるために必要な要素は何だろうか。大須賀氏は次の3つを挙げた。
- 雑談やあいまいな要求に対しても自然な応答が返ってくること。
- 旅行の予約や商品の比較検討、医療相談など、専門知識が問われる分野の話題にもちゃんとついてきてくれること。
- 会話が数ターン続いたときに、それまでの会話を踏まえたうえでコミュニケーションを続けられること。
このような期待に応えるには、やはり事前に用意した定型文を返すだけでは不十分であり、ユーザーの状況や要望に応じて、動的に応答文を生成する必要がある。

「LLMは自然言語の多様性やあいまい性を扱うための基盤技術だ。バーチャルヒューマンエージェントにとってLLMは欠かせない技術のひとつとなっている」(大須賀氏)
対話システムに検索が必要な理由とは?

「LLMがあれば、対話システムに検索は不要だ」という考えもあるかもしれない。だが、「それは間違いだ」と指摘するのは、次に登壇した平賀氏だ。LLMの知識は学習が終わった時点で止まっており、政治経済などの時事問題や天気の情報など、最新の情報には対応できないからだ。加えて、人事・販売・財務など企業固有のデータや非公開情報、あるいは企業内の情報システムに散らばった知識を対話システムから出力したいときに、LLMだけでは対応できない。
「それならLLMをファインチューニングして、追加の知識を与えれば良いのではないか」と思うかもしれない。しかし、ファインチューニングにも次のような課題があり、時間的にもコスト的にも、ファインチューニングだけに依存するのは、あまり現実的ではないという。
<ファインチューニングの課題>
- モデルを再訓練して継続的に重みを更新し続ける必要がある。
- 訓練のために高品質なデータセットを用意する必要がある。
- ドメインや課題に特化したモデルを作成する必要がある。
- 破滅的忘却(新しいデータを学習すると、それ以前に学習した知識が急激に失われてしまう現象)の可能性がある。
こうした課題を解消できるのが、LLMに対して外部の情報をリアルタイムで検索・参照させる「検索拡張生成(以下、RAG)」である。「RAGを活用すれば、比較的早く・安く、モデルそのものを変更せずに、組織や対象ドメインの独自データに接続して、モデルを拡張できる。さらにハルシネーションの回避もできるとあって、クーガーでは積極的に活用している」(平賀氏)
別の観点で見ると、最近では、論文や財務文書などの長文を処理できる「ロングコンテキストLLM」も登場している。「これがあれば、わざわざRAGを活用せずに、長文のままLLMに入力するだけで良いのではないか」という発想もあるだろう。実際、ロングコンテキストLLMが最初に出たときには、“RAG is Dead.”のタイトルで記事を投稿したメディアもあったほどだ。

しかし2024年12月の論文によると、ロングコンテキストは構造化された文書に対する理解力は高いが、YES/NOで答えられるような簡単な応答には弱いなどのデメリットもあるという。
「複数のデータソースから事実に基づいた最適な応答を返すには、やはり検索は必要。コンテキストLLMとRAGを内容によって使い分ければ良いのではないか」と対話システムにおける検索の重要性を説き、平賀氏はセッションを締め括った。
バーチャルヒューマンエージェントの研究活動
本記事で、バーチャルヒューマンエージェントにご興味を持たれた方は、ぜひ「Virtual Human Lab(バーチャルヒューマンラボ)」を覗いてみてください!機械学習、脳科学、ゲームAIを融合した、クーガーによるバーチャルヒューマンエージェントの研究活動を一部公開しています。