デジタルヒューマン開発の経緯
「未来感のある技術で何か作って」。上司からの唐突なオーダーに驚くSCSKの技術戦略本部 先進技術部 技術開発課の古川孔佑氏。同社は2024年6月、SCSKグループのブランディングと共創の拠点となるSCSK LINK SQUAREを東京ミッドタウン八重洲にオープン。最新ソリューションや最先端のデジタル技術を体験できる空間で、何か未来を感じる展示物で来場者を迎えたいというのが上司の意図だ。
未来感のあるテクノロジーとして思いつくのは、ChatGPTなどの生成AI技術。来場者がコミュニケーションを楽しめる仕掛けはないだろうか。考えを巡らせる中で思いついたのが、SCSK代表取締役の當麻隆昭氏をデジタルヒューマン化して施設の案内をしていただこうという案だった。
開発を進めるのは、昨年9月に設立されたSCSK AI Integration Lab.。住友商事グループのDXを支える技術専門家集団Insight Edgeとの新体制で、SCSKの各事業グループのAI活用案件を支援する同ラボにて、SCSKから古川氏、Insight Edgeからは技術部開発チームのフルスタックエンジニアである田島正規氏が本プロジェクトメンバーとして参画することとなった。
デジタルヒューマンの構成要素と全体アーキテクチャ
そもそも、デジタルヒューマンとは何か。古川氏は「デジタルヒューマン白書2023」の定義を取り上げ、人間のような外見を持ち、相手の位置や発話内容を理解して、感情を含んだ身振りや発生を交えながら臨機応変に応答できる、デジタル技術やAIを組み合わせて複合的に表現したものと説明した。
デモでは、展示場の透過ディスプレイに映し出されたデジタルヒューマンの社長が登場。来場者が近づくとそれを検知し、当日の天気や相手の服装といった日常的な話題を盛り込みながら挨拶を開始。本人とほぼ変わらない声色や表情で来場者の相手をする様子が紹介された。なお、ディスプレイには“社長”が何を考えながら返答を作成しているのかが分かる「脳内マップ」が表示されていた。どのような最新テクノロジーが使われているのかを体感できる仕掛けだ。
“社長”を再現するためのアーキテクチャ全体像は、ディスプレイに近づく来場者をカメラで検知し、マイクで発話を拾い、Speech to TextやYOLOX、ChatGPT Visionなどを通じてテキスト化して逐次Azure Queue Storageに転送。各種タスク用に用意したワーカーへデータを渡して分散実行し、コンテキストに沿った回答を生成して、コンテキストに合った身振りとともに返すというのが大まかな流れだ。
「後段の分散アーキテクチャは、BabyAGIなどを参考に開発した。データのインプットを受けてイベントを解釈し、その内容に応じたジョブをプランニングすることで、たとえば来場者が話をしているときにも適切なタイミングで相槌を打つといった即応性のある振る舞いを可能にした」(田島氏)
課題だったレイテンシーについては、発話の途中でも返答内容が推測できるものがあれば生成してキャッシュに保存し、発話終了したあたりに引き出すことで対処した。また、臨機応変な応答ができるよう、大規模言語モデル(LLM)に加えて、ドメイン知識をインプットするためのRAG(Retrieval-Augmented Generation)や、柔軟な会話を実現するFunction Callingなどを盛り込んだと田島氏は説明した。