人間らしさを表現する各種インターフェイスの工夫
開発では、大きく2つのポイントを重視した。
1つは、対話インターフェイスだ。「目指したのは、単なるAIではなく、人間らしい見た目で、人間らしい反応ができること」と語る古川氏。そのためにも、社長の見た目と目、声、耳のインターフェイス部分に力を入れた。
見た目について、まずは外部企業の協力の下、社長を3Dスキャンしたことで、目やまぶた、口、表情筋、各関節を動かせるようにした。続いて別外部企業の協力でお辞儀などの身振り手振りのジェスチャーを作成し、プロジェクト内でジェスチャー実行のタイミングを調整したという。6月のオープン以来、さまざまな来場者と会話しているところを目撃したと話す古川氏は、「社長を個人的に知っている方は、最近ゴルフの調子はどうか、阪神タイガースは勝つと思うかといった質問をしていた」と明かし、実際の人物をモデルにしたことで、ただのアバターではなく“人間”と対話する体験が生み出せたように感じたと述べた。
目は、来場者の位置や状態を認識するためのインターフェイスだ。近づいてきたら立ち上がって挨拶をする(YOLOX)、画像分析で服装についてコメントする(GPT-4o)といったことを可能にした。
声は、社長が話をしている35分間の動画を使ってESPnetで学習、生成した。ここでのポイントは、学習前の前処理だ。音声データとテキストデータが0.1秒単位で合うよう調整し、間投詞なども文字起こしして、聞き取りやすいよう意図的に句点を追加して間を作るといった工夫を施した。これによって、より自然な発話が実現したという。
耳は、来場者の発話を聞き取る上で重要なインターフェイスだ。マイクで拾えば良いだけかと思いがちだが、透明ディスプレイの配置場所の周囲には会議室があり、デジタルヒューマンに話しかける人以外の会話や展示物の動画音声などの環境音が邪魔して、うまく発話を識別できないという課題が持ち上がった。最終的には、ノイズキャンセリングマイクを導入したほか、ウェイクワードとして発話時に「社長」と呼びかけてもらう方式をとったが、いずれはウェイクワードなしでも会話できるようにしたいと古川氏は意欲を見せる。
また、発話終了の判断も難しかったと古川氏は言う。会話中に無音状態が発生したとき、それが発話終了を意味するのか、それとも言葉を選ぶための間なのか、判断がつかないことがある。そこで古川氏たちは、1.5秒間無音のときは発話終了と判断すると基準を設定。返答生成中に話しかけられても割り込み処理を実施し、その生成を破棄したうえで、改めて生成するという対策をとった。