登壇者
塚本 浩司(つかもと・こうじ)氏
ヤフー株式会社 執行役員 テクノロジーグループサイエンス統括本部長
1998年に東京大学大学院を卒業後、株式会社富士通研究所に入社。2004年~2005年にスタンフォード大学言語情報研究センターの客員研究員を経るなど、機械学習/言語処理/データマイニング/情報検索の研究開発を担う。2009年、ヤフー株式会社に入社。Yahoo! JAPAN研究所の研究員としてデータサイエンス領域のR&Dに従事。技術部門、データ部門の開発責任者を経て、2019年4月から現職。
田島 玲(たじま・あきら)氏
ヤフー株式会社 Yahoo! JAPAN研究所 所長
テックラボ(CTO直下のR&D)本部長
2000年3月 東京大学大学院理学系研究科情報科学専攻。博士(理学)。1992年〜2002年 日本アイ・ビー・エム東京基礎研究所 研究員、2002年~2005年 A.T.カーニー(戦略系コンサルティングファーム) コンサルタント、2005年~2010年 日本アイ・ビー・エム東京基礎研究所 数理科学チームのリード。2011年にヤフー株式会社入社。ヤフーの様々なサービスにおけるデータや先端技術の活用をR&Dのリーダーとして部門横断で推進中。
オーダーメイドとレディーメイドを使い分ける
「Yahoo! JAPAN Tech Conference 2022」2日目のキーノートは、執行役員 サイエンス統括本部長を務める塚本 浩司氏の話から始まった。ヤフーでは、データ統括本部という部署と、塚本氏が率いるサイエンス統括本部が、データとAIを活用する上でのソフトウェア実装などを担当している。データ統括本部とサイエンス統括本部はそれぞれ数百人が所属する部署だ。
両部署の守備範囲は、ヤフー社内にとどまらない。Zホールディングスには多数の消費者向けサービスが存在し、それぞれ密接に連携している。例えば「Yahoo!ショッピング」はZOZOの商品を取り扱い、Yahoo! JAPANトップページのタイムラインにはGYAO!、ebookjapanやtrillなどの記事が流れている。そのため、データ統括本部とサイエンス統括本部はZホールディングス全体のサービス改善を担い、常にサービス担当のエンジニアたちと協力しながら進めている。
サービス改善の際には、サービス自体の規模や改善にかかる手間などを考え、「オーダーメイド」「レディーメイド化」「レディーメイド化済みのものの導入推進」「カルチャー」の4本柱で進めているという。
1つ目の「オーダーメイド構築」は、特定サービスのために、データやAIを活用したソフトウェアを開発することを指す。対象となるのは、ヤフーのサービスやビジネス全体に占める比重が大きく、独自技術導入による効果が大きいサービスだ。10人から数十人規模のデータサイエンティストが専任で担当し、先進的なロジックやシステムを構築するという。また、ビジネス規模に関わらず、今後技術的に注力すべきと判断したものも、この対象になることがある。
2つ目の「基盤技術開発+レディーメイド化」は、各種サービスで広く使われる先進的な技術を開発し、汎用的に使えるものにする業務だ。例えば自然言語処理、音声処理、画像/動画処理、機械学習、情報検索などの技術が対象である。また、オーダーメイドで開発した技術の中で、汎用的に使える物を選んでレディーメイド化することもあるという。
レディーメイド化する技術の対象は、各種サービスで広く使える物という基準もあると同時に、ヤフーのサービス全体への貢献度、さらには学会や技術コミュニティでのトレンドや、その分野に特化したデータサイエンティストの存在なども選定の理由になるようだ。
3つ目の「レディーメイドの導入推進」は、汎用化したものを、実際にサービスへ応用し改善していく作業を指す。オーダーメイドにするほどの規模ではないが、サービス改善が見込めるものを選んで対象としている。すでにレディーメイド化されたものを使うため、データサイエンティストのリソースをかけずに済み、負担もそれほどかからない。そのため、改善を急ぐサービスに優先的に取り組めるという。そして、レディーメイドの成果を利用し、その使いやすさなどフィードバックしたうえでさらなる改善につなげている。
そして、4つ目の「カルチャー」では、ヤフーのデータサイエンティストたちは、社内イベントを通じてその成果を広めている。また、論文や記事の発表、学会への参加を通して社外にも発信している。昨年度は、24本の論文が国際会議に通ったという。
Yahoo! JAPANトップページのタイムラインに見る、データ利活用の事例
では実際にどのようなサービスが、データやAIを活用し改善されたのか。塚本氏はYahoo! JAPANトップページのタイムラインの構築を事例として紹介した。Yahoo! JAPANトップページのタイムラインを見ると、上から順に「①トピックス」、「②Autopi」、「③レコメンド」、使っている技術として「その他」という構成だ。
機械学習が関係するのは2番目の「Autopi」からだ、編集チームと機械学習で独自にピックアップした品質の高い記事から、統計やヒューリスティックなルールで決定しているという。そして最も機械学習を活かしているのはユーザーごとの「レコメンド」枠。各ユーザーの過去の閲覧記事を元に、興味関心を推定し掲出する。
記事をレコメンドする仕組みは、ディープラーニングを用いて、分散表現でベクトル検索を行い選択しているという。ベクトルの検索は、ヤフー独自で構築した「密ベクトル検索エンジン」を活用することによって、記事の単語をそのまま利用する場合に比べて、クリック率が大幅に向上するという結果が出ている。
さらに、塚本氏からニュースのレコメンドについて詳しく語られた。レコメンドする場合は、通常記事の閲覧数を参照することが多い。だが、それだと配信直後のニュースは対象にならない。そこで、ニュースのコンテンツだけではなくユーザー側の情報もベクトル化することにより、ユーザーの興味を学習させる。その結果、ユーザーの関心に合ったニュースを配信直後に届けられるようになった。
ニュースの配信時には、短時間で多くの記事を多数のユーザーに届ける必要がある。しかし、ユーザーのベクトルと記事のベクトルを入力し、ディープラーニングのロジックに評価させると、計算時間がかかりすぎてしまい、パフォーマンス部分が課題になってくる。
そこで、両者をベクトル化し、その内積が近い場合、内容が類似していると判定させているという。単に意味空間に入れて、ベクトルが近いものを掲出するのではなく、内積が類似度として適切になるように機械学習の際に損失関数を工夫し、最終的にベクトル検索エンジンで配信しているそうだ。