CodeZine(コードジン)

特集ページ一覧

表情を読み話をするコミュニケーションAIは、こうして誕生した~「面白い何かを作りたい!」、社内チームで思いを形に

  • LINEで送る
  • このエントリーをはてなブックマークに追加
2017/03/29 14:00

目次

社内有志を集め、思いを形に

 実はコミュニケーションAIの開発期間そのものは非常に短かった。「CEDEC出展内容が決まって、デモ内容の本格的な開発がスタートしたのは実質3週間前」と緒方氏は打ち明ける。

 コミュニケーションAIは画像処理、機械学習、チャットボットなどの要素技術を組み合わせたシステムである。同社にはその土台が整っていたかというと、実は必ずしもそうではなかった。音声合成技術など社内やグループ企業内の技術を利用している部分もあるが、かなりの部分はフルスクラッチで作り上げる必要があったのだ。

 幸い、この企画のために集まった社内有志の中には、大学で機械学習を専攻していた渡里凌氏、大学時代にデータマイニング、クラスタリング、画像処理を扱っていた経験がある組橋祐亮氏、やはり知識工学分野を専攻していた石井誉仁氏らがいた。各人のノウハウを投入し、同社にとっては初めての試みを形にしていった。

NTTPCコミュニケーションズ サービスクリエーション本部 第一サービスクリエーション部 サービスクリエーション担当 組橋祐亮氏(左)、同 渡里凌氏(中)、同 石井誉仁氏(右)
NTTPCコミュニケーションズ サービスクリエーション本部 第一サービスクリエーション部 サービスクリエーション担当
組橋祐亮氏(左)、同 渡里凌氏(中)、同 石井誉仁氏(右)

 エンジニアとして企画を実現させるための作戦を立てたのは渡里氏だ。「締め切りから逆算して“できること”を想定し、実現可能な技術を投入して、面白い結果に仕上げることに注力しました」と説明する。「手法の細部にこだわっていると『もう間に合いません』という話もしました」(渡里氏)。緒方氏の思いは、渡里氏の“ダメ出し”を受けつつ形になっていった。

 機械学習分野では学習に使えるデータが重要だ。今では機械学習の手法に関する知見の蓄積は進んでいて、手法や実装より「どのようなデータが使えるのか」が勝負となっている側面がある。

 今回のコミュニケーションAIの取り組みで特に注目したい部分は、自前のデータにこだわった点だ。同社の社員に協力してもらい、顔と性格を結びつける学習済みモデルを構築した。実際に企画の実現に関わった当事者は「間に合うようにデータを集める手段しか考えていませんでした」(渡里氏)と証言する。

 「社内で集まりそうなデータ数が分かり、その中で許容できる精度を出すことを考えました」と渡里氏は説明する。「その上で、どういう技術を使えば面白くなるのかを考え、複数のコースを立案しました。その中で最も実現できる可能性が高いコースを選んで実装しています。リソースを投入できれば、もっとよくなる余地はあります」(渡里氏)。

 緒方氏は「よく一発でうまくいったよね」と振り返る。渡里氏は「動いたのはイベント前日の設営の最中だった」と明かす。

最短コースの開発ながら、学習データを独自に蓄積

 コミュニケーションAIの内部動作にも触れておこう。特に重要な処理は2系統ある。(1)学習済みモデルによるユーザーの表情の認識(性格分類)と、(2)シナリオデータと性格分類に基づく多彩な対話処理だ。ユーザーの表情から読み取った第一印象としての性格分類に基づいて、会話の内容、質問の内容を選んでいく。大きな特徴は、表情を読み、CGキャラクターがモーションで反応する“ノンバーバル・コミュニケーション”(非言語コミュニケーション)を取り入れていることだ。こうした工夫により、ユーザーから見ればある種の個性を持ったAIに見えるはずだと考えた。

デモシステムの全容(CEDEC 2016で発表された講演資料より)
デモシステムの全容(CEDEC 2016で発表された講演資料より)

 性格分類のために、機械学習により「顔の表情」と「性格」を結びつけた学習済モデルを利用している。前述のように自前のデータにこだわり、既存のデータセットを使うアプローチは採っていない。

 コミュニケーションAIがユーザーと対話するとき、実際に行っている処理の流れは次のようになる。ユーザーの表情をとらえた画像に画像処理を施してデータ量を圧縮し、特徴量を抽出、さらに主成分分析により特徴量の次元数を削減(と聞くと難しく聞こえるかもしれないが、おおざっぱに説明するなら認識で使うパラメータの数を絞りこむことに相当する)、学習済みモデルを使って表情から読み取った性格を分類する。この分類により「第一印象」としてのユーザーの性格を決める。

 次に、用意した「シナリオデータ」と表情の認識で得た「第一印象」を使ってユーザーと対話する。ここでは、キャラクター側は音声合成を使い、ユーザー側はキーボードの「y/n」キーで回答する。騒音が激しいイベント会場での会話を想定した仕組みだ。対話内容に基づき「対話後の印象」を決める。それが記事冒頭で紹介した「最初はつれないと思ったけど、話してみると几帳面な感じで、論理的な感じ」という感想に結びついた訳だ。

 大きな課題は、対話のためのアバターとして登場するCGキャラクターをどうするかだった。新たなキャラクターを創造するのは費用もかかるし、第一時間がない。再利用可能なキャラクターを「死にものぐるいで探し回った」(緒方氏)。その結果選んだのが「鷺宮カノ」だ。

 鷺宮カノは、中野区応援キャラクター中野シスターズの“妹”にあたる。キャラクターデザインやグラフィック制作を本業とするガミングが制作した。商用利用可、報告不要、3Dモデル無料配布、改変可、二次創作可、ライセンスロゴ表示不要という、実に“ゆるい”条件で公開されている。コミュニケーションAIの能力が、この鷺宮カノに命を吹き込む形となった。


  • LINEで送る
  • このエントリーをはてなブックマークに追加

あなたにオススメ

著者プロフィール

  • 星 暁雄(ホシ アキオ)

    ITジャーナリスト。日経BP社で『日経エレクトロニクス』記者、オンラインマガジン『日経Javaレビュー』編集長などの経験を積み2006年に独立。現在はフリーランスとして活動。半導体、プログラミング言語、オペレーティングシステム、エンタープライズIT、インターネットサービス、スマートデバイスなど、幅広...

バックナンバー

連載:プロダクト担当者インタビュー
All contents copyright © 2005-2021 Shoeisha Co., Ltd. All rights reserved. ver.1.5