SHOEISHA iD

※旧SEメンバーシップ会員の方は、同じ登録情報(メールアドレス&パスワード)でログインいただけます

CodeZine編集部では、現場で活躍するデベロッパーをスターにするためのカンファレンス「Developers Summit」や、エンジニアの生きざまをブーストするためのイベント「Developers Boost」など、さまざまなカンファレンスを企画・運営しています。

Developers Summit 2024 Summer レポート(AD)

SCSKの社長がデジタルヒューマンに! 生成AIを活用した人間らしさ実現のポイントと課題

【23-A-3】LLMと3Dアバターで実現! デジタルヒューマン開発の舞台裏とノウハウ

  • X ポスト
  • このエントリーをはてなブックマークに追加

 SCSKが今年6月に新規開設したSCSK LINK SQUARE 。そこで来客を出迎えるのは、デジタルヒューマンの同社社長だ。3Dスキャンでアバター化された社長と、LLMを活用した自然な対話が楽しめる企画展示。実はその裏でさまざまな技術が取り入れられている。SCSKの古川孔佑氏とInsight Edgeの田島正規氏が開発の経緯や活用技術の選定、アーキテクチャ、開発のポイントなどを解説した。

  • X ポスト
  • このエントリーをはてなブックマークに追加

デジタルヒューマン開発の経緯

 「未来感のある技術で何か作って」。上司からの唐突なオーダーに驚くSCSKの技術戦略本部 先進技術部 技術開発課の古川孔佑氏。同社は2024年6月、SCSKグループのブランディングと共創の拠点となるSCSK LINK SQUAREを東京ミッドタウン八重洲にオープン。最新ソリューションや最先端のデジタル技術を体験できる空間で、何か未来を感じる展示物で来場者を迎えたいというのが上司の意図だ。

SCSK株式会社 技術戦略本部 先進技術部 技術開発課 メンバー 古川 孔佑氏
SCSK株式会社 技術戦略本部 先進技術部 技術開発課 メンバー 古川 孔佑氏

 未来感のあるテクノロジーとして思いつくのは、ChatGPTなどの生成AI技術。来場者がコミュニケーションを楽しめる仕掛けはないだろうか。考えを巡らせる中で思いついたのが、SCSK代表取締役の當麻隆昭氏をデジタルヒューマン化して施設の案内をしていただこうという案だった。

 開発を進めるのは、昨年9月に設立されたSCSK AI Integration Lab.。住友商事グループのDXを支える技術専門家集団Insight Edgeとの新体制で、SCSKの各事業グループのAI活用案件を支援する同ラボにて、SCSKから古川氏、Insight Edgeからは技術部開発チームのフルスタックエンジニアである田島正規氏が本プロジェクトメンバーとして参画することとなった。

株式会社Insight Edge 技術部開発チーム フルスタックエンジニア 田島 正規氏
株式会社Insight Edge 技術部開発チーム フルスタックエンジニア 田島 正規氏

デジタルヒューマンの構成要素と全体アーキテクチャ

 そもそも、デジタルヒューマンとは何か。古川氏は「デジタルヒューマン白書2023」の定義を取り上げ、人間のような外見を持ち、相手の位置や発話内容を理解して、感情を含んだ身振りや発生を交えながら臨機応変に応答できる、デジタル技術やAIを組み合わせて複合的に表現したものと説明した。

 デモでは、展示場の透過ディスプレイに映し出されたデジタルヒューマンの社長が登場。来場者が近づくとそれを検知し、当日の天気や相手の服装といった日常的な話題を盛り込みながら挨拶を開始。本人とほぼ変わらない声色や表情で来場者の相手をする様子が紹介された。なお、ディスプレイには“社長”が何を考えながら返答を作成しているのかが分かる「脳内マップ」が表示されていた。どのような最新テクノロジーが使われているのかを体感できる仕掛けだ。

  “社長”を再現するためのアーキテクチャ全体像は、ディスプレイに近づく来場者をカメラで検知し、マイクで発話を拾い、Speech to TextやYOLOX、ChatGPT Visionなどを通じてテキスト化して逐次Azure Queue Storageに転送。各種タスク用に用意したワーカーへデータを渡して分散実行し、コンテキストに沿った回答を生成して、コンテキストに合った身振りとともに返すというのが大まかな流れだ。

アーキテクチャの全体像
アーキテクチャの全体像
アーキテクチャの全体像
アーキテクチャの全体像

 「後段の分散アーキテクチャは、BabyAGIなどを参考に開発した。データのインプットを受けてイベントを解釈し、その内容に応じたジョブをプランニングすることで、たとえば来場者が話をしているときにも適切なタイミングで相槌を打つといった即応性のある振る舞いを可能にした」(田島氏)

 課題だったレイテンシーについては、発話の途中でも返答内容が推測できるものがあれば生成してキャッシュに保存し、発話終了したあたりに引き出すことで対処した。また、臨機応変な応答ができるよう、大規模言語モデル(LLM)に加えて、ドメイン知識をインプットするためのRAG(Retrieval-Augmented Generation)や、柔軟な会話を実現するFunction Callingなどを盛り込んだと田島氏は説明した。

人間らしさを表現する各種インターフェイスの工夫

 開発では、大きく2つのポイントを重視した。

 1つは、対話インターフェイスだ。「目指したのは、単なるAIではなく、人間らしい見た目で、人間らしい反応ができること」と語る古川氏。そのためにも、社長の見た目と目、声、耳のインターフェイス部分に力を入れた。

 見た目について、まずは外部企業の協力の下、社長を3Dスキャンしたことで、目やまぶた、口、表情筋、各関節を動かせるようにした。続いて別外部企業の協力でお辞儀などの身振り手振りのジェスチャーを作成し、プロジェクト内でジェスチャー実行のタイミングを調整したという。6月のオープン以来、さまざまな来場者と会話しているところを目撃したと話す古川氏は、「社長を個人的に知っている方は、最近ゴルフの調子はどうか、阪神タイガースは勝つと思うかといった質問をしていた」と明かし、実際の人物をモデルにしたことで、ただのアバターではなく“人間”と対話する体験が生み出せたように感じたと述べた。

 目は、来場者の位置や状態を認識するためのインターフェイスだ。近づいてきたら立ち上がって挨拶をする(YOLOX)、画像分析で服装についてコメントする(GPT-4o)といったことを可能にした。

 声は、社長が話をしている35分間の動画を使ってESPnetで学習、生成した。ここでのポイントは、学習前の前処理だ。音声データとテキストデータが0.1秒単位で合うよう調整し、間投詞なども文字起こしして、聞き取りやすいよう意図的に句点を追加して間を作るといった工夫を施した。これによって、より自然な発話が実現したという。

 耳は、来場者の発話を聞き取る上で重要なインターフェイスだ。マイクで拾えば良いだけかと思いがちだが、透明ディスプレイの配置場所の周囲には会議室があり、デジタルヒューマンに話しかける人以外の会話や展示物の動画音声などの環境音が邪魔して、うまく発話を識別できないという課題が持ち上がった。最終的には、ノイズキャンセリングマイクを導入したほか、ウェイクワードとして発話時に「社長」と呼びかけてもらう方式をとったが、いずれはウェイクワードなしでも会話できるようにしたいと古川氏は意欲を見せる。

苦戦を強いられた“耳”インターフェイス
苦戦を強いられた“耳”インターフェイス

 また、発話終了の判断も難しかったと古川氏は言う。会話中に無音状態が発生したとき、それが発話終了を意味するのか、それとも言葉を選ぶための間なのか、判断がつかないことがある。そこで古川氏たちは、1.5秒間無音のときは発話終了と判断すると基準を設定。返答生成中に話しかけられても割り込み処理を実施し、その生成を破棄したうえで、改めて生成するという対策をとった。

進化への対応が課題となるLLMの選定と実運用

 開発におけるもう1つの重視ポイントは、LLMの選定とアップデートだ。

 「デジタルヒューマンを実現するうえで、LLMは大きな要素を占める」と話す田島氏は、LLMの選定においてはインタラクティブ性で求められる「スピード」、文脈に沿った柔軟かつ正確な対応を実現する「クオリティ」、不適切な表現を排除する「コンテンツフィルタ」を軸に検討。これらをバランスよく実現するGPT-3.5 Turboに当初は決定していたと述べた。

 しかし、そんな彼らを襲ったのはLLMモデルの頻繁なアップデートだ。各サービスの結合を進めていた2024年3月にはAnthropicからClaude 3 Opusが公開、結合テストを実施した4月にはMetaがLlama 3を公開、リリース間際の5月にはGemini 1.5 ProやOpenAIのGPT-4oが公開されるなど、激動の期間となった。

 刻々と状況が変わる中、田島氏たちは前述の3つの軸で最新モデルを急いで検証を開始した。そして、バランスの良さからGPT-4o Turboに変更することを急遽決めたという。

 進化の著しい領域のテクノロジーを採用する場合、こうした課題は避けては通れない。だが、その都度見直しを迫られるのは開発への影響が大きすぎる。田島氏は、LLMを採用した開発でこれら問題に左右されないためにも、「特定のLLMに依存しないアプリケーション開発」と「開発と運用における評価環境の構築」が重要と述べた。

 特に、評価環境は下位モデルから上位モデルに変更した際に生じる差異をうまく修正することを可能にする。当初こうした変更は簡単と思っていた田島氏だったが、「GPT-4oはGPT-3.5と比べて性能が上がったからか、プロンプトに対して素直に従うために冗長な返答を生成してしまい、“社長”が長文を話し始める事態に陥った」と明かす。

 評価環境の流れは、おおまかにプルリクエスト時のユニットテストの実行と近い感覚だと田島氏は述べる。異なるのは、初期はテスト/評価データを人的に準備する必要があること。運用が始まれば、開発フェーズと実運用で見つかった、想定した利用シナリオにはない課題や成功例を抽出して評価データに充てていくことが可能になる。

開発と運用における評価環境を構築する
開発と運用における評価環境を構築する

 もうひとつの異なる点は、評価結果の解釈だ。LLMのテスト結果は単純に解釈できないことが多く、「LLMで解釈して決めるというやり方もあるが、まだ洗練されておらず、人間の目で評価する必要がある」と田島氏。いずれは簡略化していきたいと述べた。

 今後は、より“人間らしさ”を追求すべくブラッシュアップを図りたいと述べる両氏。たとえば、社長のパーソナリティを反映した学習データの拡充、蓄積されるログを活かしたプロンプトの改善、SCSKの他ソリューションへのサービス展開を検討中と明かす。

 「SCSKでは他企業や研究機関との共創で、さまざまな取り組みを推進している。興味がある方は、ぜひ連絡してほしい」(古川氏)と呼びかけ、セッションを終えた。

この記事は参考になりましたか?

  • X ポスト
  • このエントリーをはてなブックマークに追加

提供:SCSK株式会社

【AD】本記事の内容は記事掲載開始時点のものです 企画・制作 株式会社翔泳社

この記事は参考になりましたか?

この記事をシェア

  • X ポスト
  • このエントリーをはてなブックマークに追加
CodeZine(コードジン)
https://codezine.jp/article/detail/20086 2024/09/30 12:00

イベント

CodeZine編集部では、現場で活躍するデベロッパーをスターにするためのカンファレンス「Developers Summit」や、エンジニアの生きざまをブーストするためのイベント「Developers Boost」など、さまざまなカンファレンスを企画・運営しています。

新規会員登録無料のご案内

  • ・全ての過去記事が閲覧できます
  • ・会員限定メルマガを受信できます

メールバックナンバー

アクセスランキング

アクセスランキング