Developers Summit 2024 Summer レポート（AD）

SCSKの社長がデジタルヒューマンに！生成AIを活用した人間らしさ実現のポイントと課題

【23-A-3】LLMと3Dアバターで実現! デジタルヒューマン開発の舞台裏とノウハウ

2024/09/30 12:00

ポスト

人間らしさを表現する各種インターフェイスの工夫

　開発では、大きく2つのポイントを重視した。

　1つは、対話インターフェイスだ。「目指したのは、単なるAIではなく、人間らしい見た目で、人間らしい反応ができること」と語る古川氏。そのためにも、社長の見た目と目、声、耳のインターフェイス部分に力を入れた。

　見た目について、まずは外部企業の協力の下、社長を3Dスキャンしたことで、目やまぶた、口、表情筋、各関節を動かせるようにした。続いて別外部企業の協力でお辞儀などの身振り手振りのジェスチャーを作成し、プロジェクト内でジェスチャー実行のタイミングを調整したという。6月のオープン以来、さまざまな来場者と会話しているところを目撃したと話す古川氏は、「社長を個人的に知っている方は、最近ゴルフの調子はどうか、阪神タイガースは勝つと思うかといった質問をしていた」と明かし、実際の人物をモデルにしたことで、ただのアバターではなく“人間”と対話する体験が生み出せたように感じたと述べた。

　目は、来場者の位置や状態を認識するためのインターフェイスだ。近づいてきたら立ち上がって挨拶をする（YOLOX）、画像分析で服装についてコメントする（GPT-4o）といったことを可能にした。

　声は、社長が話をしている35分間の動画を使ってESPnetで学習、生成した。ここでのポイントは、学習前の前処理だ。音声データとテキストデータが0.1秒単位で合うよう調整し、間投詞なども文字起こしして、聞き取りやすいよう意図的に句点を追加して間を作るといった工夫を施した。これによって、より自然な発話が実現したという。

　耳は、来場者の発話を聞き取る上で重要なインターフェイスだ。マイクで拾えば良いだけかと思いがちだが、透明ディスプレイの配置場所の周囲には会議室があり、デジタルヒューマンに話しかける人以外の会話や展示物の動画音声などの環境音が邪魔して、うまく発話を識別できないという課題が持ち上がった。最終的には、ノイズキャンセリングマイクを導入したほか、ウェイクワードとして発話時に「社長」と呼びかけてもらう方式をとったが、いずれはウェイクワードなしでも会話できるようにしたいと古川氏は意欲を見せる。

　また、発話終了の判断も難しかったと古川氏は言う。会話中に無音状態が発生したとき、それが発話終了を意味するのか、それとも言葉を選ぶための間なのか、判断がつかないことがある。そこで古川氏たちは、1.5秒間無音のときは発話終了と判断すると基準を設定。返答生成中に話しかけられても割り込み処理を実施し、その生成を破棄したうえで、改めて生成するという対策をとった。

次のページ
進化への対応が課題となるLLMの選定と実運用

関連リンク: SCSK TECH

SCSK TECH記事「講演「LLMと3Dアバターで実現! デジタルヒューマン開発の舞台裏とノウハウ」～Developers Summit 2024 summer～」

この記事は参考になりましたか？

印刷用を表示

ポスト

Developers Summit 2024 Summer レポート連載記事一覧: 開発会社では味わえない「事業への貢献」──スターバックス＆星野リゾートのITリーダーが語る...

ビジネスとの「距離感」を磨こう──ばんくし氏が語る、事業貢献とエンジニアの夢を両立する鍵

キャリアラダーをエンジニアの目標設定に活用　エンジニアの真の価値を測る「事業貢献」の基準と...

もっと読む

この記事の著者: 谷崎朋子（タニザキトモコ）

　エンタープライズIT向け雑誌の編集を経てフリーランスに。IT系ニュースサイトを中心に記事を執筆。セキュリティ、DevOpsあたりが最近は多めですが、基本は雑食。テクノロジーを楽しいエクスペリエンスに変えるような話が好きです。

※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です

この著者の最近の執筆記事; 川又　眞（カワマタ　シン）

インタビュー、ポートレート、商品撮影写真をWeb雑誌中心に活動。

※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です

この著者の最近の執筆記事; CodeZine編集部（コードジンヘンシュウブ）

CodeZineは、株式会社翔泳社が運営するソフトウェア開発者向けのWebメディアです。「デベロッパーの成長と課題解決に貢献するメディア」をコンセプトに、現場で役立つ最新情報を日々お届けします。

※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です

この著者の最近の執筆記事