バーチャルヒューマンエージェントの仕組み
クーガーが開発する人型AIプラットフォーム「LUDENS(ルーデンス)」は、中枢となる「LudensCore」、視覚となる「VisualCortex」、言語能力となる「LanguageCortex」、そしてインターフェースとなる「バーチャルヒューマンエージェント(VHA)」で構成されている。
このLUDENSから生まれたのが、人型AIアシスタント「レイチェル」だ。レイチェルは3Dモデルで表現された人間らしい外見や表情、音声認識と自然言語処理などを用いて対話する能力、対話の文脈を理解して適切な応答を生成する知能や判断力を持ち合わせている。一言で定義するなら「コンピュータ上で人間の姿や振る舞いを再現している仮想人間」だ。
そんなバーチャルエージェントのアーキテクチャーを示したのが、以下の図である。

入力は、ユーザーの音声と画像の2つ。カメラが捉えた画像からユーザーの表情などを分析すると同時に、発話の音声データをテキストに変換して、対話システムで応答を生成する。その後、画像から得た情報と生成された応答テキストをもとに、3Dモデルの振る舞いを決定し、最終的に3Dモデルを通して応答と振る舞いを同時に出力する仕組みになっている。
対話システムの中身をより詳しく見てみよう。まず発話のテキストに含まれる情報を分析する。ユーザーの意図を理解して、対話履歴として保存した後に、過去の対応履歴などから行動を選択。その際、必要があれば、外部のリソースにもアクセスして、データを参照している。次の応答生成においては、より自然な文章になるよう、大規模言語モデル(以下、LLM)などを用いている。
改めて、対話システムとしてのバーチャルヒューマンエージェントを紐解いてみると、主に次のようなモジュールの集合体であると捉えることができる。
-
自然言語理解
- テキスト解析を用いて、ユーザーの発話内容(意図や感情)を理解する。
-
画像認識
- 画像解析を用いて、ユーザーを識別・表情や感情を理解する。
-
対話管理
- 文脈(ユーザーの状況・これまでの発話など)を管理し、次の行動を決定する。
- シナリオベースやルールベース、もしくはAIを用いた動的な行動選択する。
-
応答生成
- 応答内容を自然言語で表現する。
- LLMを活用することで、より自然で豊かな言い回しが可能に。
-
マルチモーダル出力
- 発話を含め、3Dモデルの口の動きや表情の変化、身振り・手振りといったアニメーションを追加する。
- 人間的な存在感や親しみやすさを演出し、ユーザーの没入感を高める。
バーチャルヒューマンエージェントの高度化において欠かせないのが、応答生成におけるLLMだ。最新情報や企業内情報のインプットには外部の知識ベースにAPI連携しておく必要があったり、ファインチューニングするためには一定の専門知識や技術力が必要であったりするものの、人間らしさを追求する上で、LLMは必要不可欠である。次に、バーチャルヒューマンエージェント開発におけるLLMの重要性について見ていこう。