SHOEISHA iD

※旧SEメンバーシップ会員の方は、同じ登録情報(メールアドレス&パスワード)でログインいただけます

CodeZine編集部では、現場で活躍するデベロッパーをスターにするためのカンファレンス「Developers Summit」や、エンジニアの生きざまをブーストするためのイベント「Developers Boost」など、さまざまなカンファレンスを企画・運営しています。

Developers Summit 2024 Summer レポート(AD)

SCSKの社長がデジタルヒューマンに! 生成AIを活用した人間らしさ実現のポイントと課題

【23-A-3】LLMと3Dアバターで実現! デジタルヒューマン開発の舞台裏とノウハウ

  • X ポスト
  • このエントリーをはてなブックマークに追加

 SCSKが今年6月に新規開設したSCSK LINK SQUARE 。そこで来客を出迎えるのは、デジタルヒューマンの同社社長だ。3Dスキャンでアバター化された社長と、LLMを活用した自然な対話が楽しめる企画展示。実はその裏でさまざまな技術が取り入れられている。SCSKの古川孔佑氏とInsight Edgeの田島正規氏が開発の経緯や活用技術の選定、アーキテクチャ、開発のポイントなどを解説した。

  • X ポスト
  • このエントリーをはてなブックマークに追加

デジタルヒューマン開発の経緯

 「未来感のある技術で何か作って」。上司からの唐突なオーダーに驚くSCSKの技術戦略本部 先進技術部 技術開発課の古川孔佑氏。同社は2024年6月、SCSKグループのブランディングと共創の拠点となるSCSK LINK SQUAREを東京ミッドタウン八重洲にオープン。最新ソリューションや最先端のデジタル技術を体験できる空間で、何か未来を感じる展示物で来場者を迎えたいというのが上司の意図だ。

SCSK株式会社 技術戦略本部 先進技術部 技術開発課 メンバー 古川 孔佑氏
SCSK株式会社 技術戦略本部 先進技術部 技術開発課 メンバー 古川 孔佑氏

 未来感のあるテクノロジーとして思いつくのは、ChatGPTなどの生成AI技術。来場者がコミュニケーションを楽しめる仕掛けはないだろうか。考えを巡らせる中で思いついたのが、SCSK代表取締役の當麻隆昭氏をデジタルヒューマン化して施設の案内をしていただこうという案だった。

 開発を進めるのは、昨年9月に設立されたSCSK AI Integration Lab.。住友商事グループのDXを支える技術専門家集団Insight Edgeとの新体制で、SCSKの各事業グループのAI活用案件を支援する同ラボにて、SCSKから古川氏、Insight Edgeからは技術部開発チームのフルスタックエンジニアである田島正規氏が本プロジェクトメンバーとして参画することとなった。

株式会社Insight Edge 技術部開発チーム フルスタックエンジニア 田島 正規氏
株式会社Insight Edge 技術部開発チーム フルスタックエンジニア 田島 正規氏

デジタルヒューマンの構成要素と全体アーキテクチャ

 そもそも、デジタルヒューマンとは何か。古川氏は「デジタルヒューマン白書2023」の定義を取り上げ、人間のような外見を持ち、相手の位置や発話内容を理解して、感情を含んだ身振りや発生を交えながら臨機応変に応答できる、デジタル技術やAIを組み合わせて複合的に表現したものと説明した。

 デモでは、展示場の透過ディスプレイに映し出されたデジタルヒューマンの社長が登場。来場者が近づくとそれを検知し、当日の天気や相手の服装といった日常的な話題を盛り込みながら挨拶を開始。本人とほぼ変わらない声色や表情で来場者の相手をする様子が紹介された。なお、ディスプレイには“社長”が何を考えながら返答を作成しているのかが分かる「脳内マップ」が表示されていた。どのような最新テクノロジーが使われているのかを体感できる仕掛けだ。

  “社長”を再現するためのアーキテクチャ全体像は、ディスプレイに近づく来場者をカメラで検知し、マイクで発話を拾い、Speech to TextやYOLOX、ChatGPT Visionなどを通じてテキスト化して逐次Azure Queue Storageに転送。各種タスク用に用意したワーカーへデータを渡して分散実行し、コンテキストに沿った回答を生成して、コンテキストに合った身振りとともに返すというのが大まかな流れだ。

アーキテクチャの全体像
アーキテクチャの全体像
アーキテクチャの全体像
アーキテクチャの全体像

 「後段の分散アーキテクチャは、BabyAGIなどを参考に開発した。データのインプットを受けてイベントを解釈し、その内容に応じたジョブをプランニングすることで、たとえば来場者が話をしているときにも適切なタイミングで相槌を打つといった即応性のある振る舞いを可能にした」(田島氏)

 課題だったレイテンシーについては、発話の途中でも返答内容が推測できるものがあれば生成してキャッシュに保存し、発話終了したあたりに引き出すことで対処した。また、臨機応変な応答ができるよう、大規模言語モデル(LLM)に加えて、ドメイン知識をインプットするためのRAG(Retrieval-Augmented Generation)や、柔軟な会話を実現するFunction Callingなどを盛り込んだと田島氏は説明した。

次のページ
人間らしさを表現する各種インターフェイスの工夫

関連リンク

この記事は参考になりましたか?

  • X ポスト
  • このエントリーをはてなブックマークに追加
Developers Summit 2024 Summer レポート連載記事一覧

もっと読む

この記事の著者

谷崎 朋子(タニザキ トモコ)

 エンタープライズIT向け雑誌の編集を経てフリーランスに。IT系ニュースサイトを中心に記事を執筆。セキュリティ、DevOpsあたりが最近は多めですが、基本は雑食。テクノロジーを楽しいエクスペリエンスに変えるような話が好きです。

※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です

川又 眞(カワマタ シン)

インタビュー、ポートレート、商品撮影写真をWeb雑誌中心に活動。

※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です

CodeZine編集部(コードジンヘンシュウブ)

CodeZineは、株式会社翔泳社が運営するソフトウェア開発者向けのWebメディアです。「デベロッパーの成長と課題解決に貢献するメディア」をコンセプトに、現場で役立つ最新情報を日々お届けします。

※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です

提供:SCSK株式会社

【AD】本記事の内容は記事掲載開始時点のものです 企画・制作 株式会社翔泳社

この記事は参考になりましたか?

この記事をシェア

  • X ポスト
  • このエントリーをはてなブックマークに追加
CodeZine(コードジン)
https://codezine.jp/article/detail/20086 2024/09/30 12:00

おすすめ

アクセスランキング

アクセスランキング

イベント

CodeZine編集部では、現場で活躍するデベロッパーをスターにするためのカンファレンス「Developers Summit」や、エンジニアの生きざまをブーストするためのイベント「Developers Boost」など、さまざまなカンファレンスを企画・運営しています。

新規会員登録無料のご案内

  • ・全ての過去記事が閲覧できます
  • ・会員限定メルマガを受信できます

メールバックナンバー

アクセスランキング

アクセスランキング