ヤフーのデータサイエンスそして研究開発のトップが語る、AIのサービス導入から最先端の研究まで

Yahoo! JAPAN Tech Conference 2022 Day2 Keynote

2022/02/28 12:00

ポスト

　2022年2月3～4日、ヤフー主催の技術イベント「Yahoo! JAPAN Tech Conference 2022」がオンラインで開催された。2日目のキーノートでは、ヤフー社内でデータと機械学習をどのように活用してサービスの改善につなげているのか、Zホールディングス全体でAIを社会実装していく上で、どのような準備をしているのかについて、キーパーソンの二人が語った。

ポスト

登壇者

塚本浩司（つかもと・こうじ）氏
ヤフー株式会社執行役員テクノロジーグループサイエンス統括本部長
1998年に東京大学大学院を卒業後、株式会社富士通研究所に入社。2004年～2005年にスタンフォード大学言語情報研究センターの客員研究員を経るなど、機械学習/言語処理/データマイニング/情報検索の研究開発を担う。2009年、ヤフー株式会社に入社。Yahoo! JAPAN研究所の研究員としてデータサイエンス領域のR&Dに従事。技術部門、データ部門の開発責任者を経て、2019年4月から現職。

田島玲（たじま・あきら）氏
ヤフー株式会社 Yahoo! JAPAN研究所所長
テックラボ（CTO直下のR&D）本部長
2000年3月東京大学大学院理学系研究科情報科学専攻。博士（理学）。1992年〜2002年日本アイ・ビー・エム東京基礎研究所研究員、2002年～2005年 A.T.カーニー（戦略系コンサルティングファーム）コンサルタント、2005年～2010年日本アイ・ビー・エム東京基礎研究所数理科学チームのリード。2011年にヤフー株式会社入社。ヤフーの様々なサービスにおけるデータや先端技術の活用をR&Dのリーダーとして部門横断で推進中。

オーダーメイドとレディーメイドを使い分ける

　「Yahoo! JAPAN Tech Conference 2022」2日目のキーノートは、執行役員サイエンス統括本部長を務める塚本浩司氏の話から始まった。ヤフーでは、データ統括本部という部署と、塚本氏が率いるサイエンス統括本部が、データとAIを活用する上でのソフトウェア実装などを担当している。データ統括本部とサイエンス統括本部はそれぞれ数百人が所属する部署だ。

ヤフー株式会社執行役員テクノロジーグループサイエンス統括本部長塚本浩司氏（撮影：中村友一）

　両部署の守備範囲は、ヤフー社内にとどまらない。Zホールディングスには多数の消費者向けサービスが存在し、それぞれ密接に連携している。例えば「Yahoo!ショッピング」はZOZOの商品を取り扱い、Yahoo! JAPANトップページのタイムラインにはGYAO!、ebookjapanやtrillなどの記事が流れている。そのため、データ統括本部とサイエンス統括本部はZホールディングス全体のサービス改善を担い、常にサービス担当のエンジニアたちと協力しながら進めている。

　サービス改善の際には、サービス自体の規模や改善にかかる手間などを考え、「オーダーメイド」「レディーメイド化」「レディーメイド化済みのものの導入推進」「カルチャー」の4本柱で進めているという。

　1つ目の「オーダーメイド構築」は、特定サービスのために、データやAIを活用したソフトウェアを開発することを指す。対象となるのは、ヤフーのサービスやビジネス全体に占める比重が大きく、独自技術導入による効果が大きいサービスだ。10人から数十人規模のデータサイエンティストが専任で担当し、先進的なロジックやシステムを構築するという。また、ビジネス規模に関わらず、今後技術的に注力すべきと判断したものも、この対象になることがある。

　2つ目の「基盤技術開発＋レディーメイド化」は、各種サービスで広く使われる先進的な技術を開発し、汎用的に使えるものにする業務だ。例えば自然言語処理、音声処理、画像／動画処理、機械学習、情報検索などの技術が対象である。また、オーダーメイドで開発した技術の中で、汎用的に使える物を選んでレディーメイド化することもあるという。

　レディーメイド化する技術の対象は、各種サービスで広く使える物という基準もあると同時に、ヤフーのサービス全体への貢献度、さらには学会や技術コミュニティでのトレンドや、その分野に特化したデータサイエンティストの存在なども選定の理由になるようだ。

　3つ目の「レディーメイドの導入推進」は、汎用化したものを、実際にサービスへ応用し改善していく作業を指す。オーダーメイドにするほどの規模ではないが、サービス改善が見込めるものを選んで対象としている。すでにレディーメイド化されたものを使うため、データサイエンティストのリソースをかけずに済み、負担もそれほどかからない。そのため、改善を急ぐサービスに優先的に取り組めるという。そして、レディーメイドの成果を利用し、その使いやすさなどフィードバックしたうえでさらなる改善につなげている。

　そして、4つ目の「カルチャー」では、ヤフーのデータサイエンティストたちは、社内イベントを通じてその成果を広めている。また、論文や記事の発表、学会への参加を通して社外にも発信している。昨年度は、24本の論文が国際会議に通ったという。

Yahoo! JAPANトップページのタイムラインに見る、データ利活用の事例

　では実際にどのようなサービスが、データやAIを活用し改善されたのか。塚本氏はYahoo! JAPANトップページのタイムラインの構築を事例として紹介した。Yahoo! JAPANトップページのタイムラインを見ると、上から順に「①トピックス」、「②Autopi」、「③レコメンド」、使っている技術として「その他」という構成だ。

　機械学習が関係するのは2番目の「Autopi」からだ、編集チームと機械学習で独自にピックアップした品質の高い記事から、統計やヒューリスティックなルールで決定しているという。そして最も機械学習を活かしているのはユーザーごとの「レコメンド」枠。各ユーザーの過去の閲覧記事を元に、興味関心を推定し掲出する。

　記事をレコメンドする仕組みは、ディープラーニングを用いて、分散表現でベクトル検索を行い選択しているという。ベクトルの検索は、ヤフー独自で構築した「密ベクトル検索エンジン」を活用することによって、記事の単語をそのまま利用する場合に比べて、クリック率が大幅に向上するという結果が出ている。

　さらに、塚本氏からニュースのレコメンドについて詳しく語られた。レコメンドする場合は、通常記事の閲覧数を参照することが多い。だが、それだと配信直後のニュースは対象にならない。そこで、ニュースのコンテンツだけではなくユーザー側の情報もベクトル化することにより、ユーザーの興味を学習させる。その結果、ユーザーの関心に合ったニュースを配信直後に届けられるようになった。

　ニュースの配信時には、短時間で多くの記事を多数のユーザーに届ける必要がある。しかし、ユーザーのベクトルと記事のベクトルを入力し、ディープラーニングのロジックに評価させると、計算時間がかかりすぎてしまい、パフォーマンス部分が課題になってくる。

　そこで、両者をベクトル化し、その内積が近い場合、内容が類似していると判定させているという。単に意味空間に入れて、ベクトルが近いものを掲出するのではなく、内積が類似度として適切になるように機械学習の際に損失関数を工夫し、最終的にベクトル検索エンジンで配信しているそうだ。

AIの社会実装に向けてヤフーが取り組んでいること

　次に、登場したのはYahoo! JAPAN研究所所長、テックラボ本部長を務める田島玲氏だ。田島氏は研究開発として最先端の技術をいかに使いこなしていくか、そして、生み出していくかについて話を始めた。

ヤフー株式会社 Yahoo! JAPAN研究所所長テックラボ本部長田島玲氏 — ヤフー株式会社 Yahoo! JAPAN研究所所長
テックラボ本部長田島玲氏（撮影：中村友一）

　まずはZホールディングス全体の取り組みの話から紹介する。AIの社会実装を進めていくうえで非常に重要な要素に「AI倫理」がある。Zホールディングスは2021年6月、AI倫理に関する有識者会議を立ち上げた。有識者会議によって、外部の有識者の意見を踏まえ、倫理に関する基本方針を明確化し、そのうえでガバナンスやルールを整備していく方向だ。

　さらに田島氏は、Zホールディングス全体での取り組みとしてもう一つ、2021年に開始したAI人材が集まり共に学ぶ場「Z AIアカデミア」を挙げた。具体的には、文系のバックグラウンドの人材も含めて、AIのリテラシーを底上げしていくための講座を開講している。さらに、AIを作る側の人材が集まって事例を共有する、あるいはお互いに刺激し合ってレベルを上げていくことにも取り組んでいる。

　田島氏は続いて、ヤフー単体としての取り組みへと話を進めた。まずは「サイエンスシェア会」。技術を追いかけるだけではなく、どういった技術をどこでどのように使っていくのかという事例の共有が重要だと説明し、そのために立ち上げたと語る。「Z AIアカデミア」にも似たような取り組みはあるが、「サイエンスシェア会」はいち企業の中での取り組みであるため、より具体的な数字を共有し、突っ込んだ議論ができているという。

　さらに、一堂に会して議論する場として、ポスターセッションを開催しているそうだ。ほかにも論文を読む会や勉強会などは草の根で多数開催されている。加えて、大学との共同研究を多数推進し、実際にこの取り組みの中から、サービスの現場で使われるような成果も出てきているそうだ。

　前半の塚本氏の話にもあったが、外部への論文発信にも力を入れ、特にトップカンファレンスと言われるような狭き門への挑戦は続けており、近年は大きな成果も上がるようになってきた。AIは動きが激しい領域であるため「ヤフーが世界に向けて発信する側に回る」といった気概で取り組んでいるという。

外部との協業で勝ち取った貴重な成果

　そして最後に、研究開発の具体的な事例として1本の論文を紹介した。「Doubly Robust Off-Policy Evaluation for Ranking Policies under the Cascade Behavior Model」という論文だ。WSDM（ウィズダム）というWeb系のトップカンファレンスで採択され、イェール大学成田准教授や学生インターンとの協業の成果だという。実は、この論文のテーマ自体が、AIの社会実装に向けて非常に重要なトピックとなっている（参考記事：「Webデータマイニングのトップカンファレンス「WSDM」にて共著論文採択」）。

　AIは「データのバイアスとの戦い」の側面が強い。例えば「CEOの画像」を検索すると、ネクタイを締めた白人の中年男性の写真が大量に表示される。そのような偏ったデータを元に学習すると、AIの挙動も偏ったものになる。結果的にそれが倫理的な問題につながってしまうこともあるはずだ。

　一方で、データのバイアスは社会に起因するのみならず、AIの実装自体に起因することもある。田島氏は、「フィルターバブルのようなものを考えてほしい」と語りかける。何らかの施策を打つと、そこで集まったデータをもとにAIのモデルを再学習してさらに施策を打つ。それを何度も繰り返していくと、データ自体、そしてAIのモデルも偏ったものになりうるのだ。

　そこで、今回採択された論文で取り上げている「Off-Policy Evaluation（オフポリシーエバリュエーション）」が効果を発揮する。これは、既存のロジックで配信されたログ、すなわちバイアスのあるログを使って新しいロジックの性能を正しく評価する取り組みだ。これができると、効率よくPDCAを正しく回してAIを磨き込んでいくことができるようになる。

　ここで反実仮想「counterfactual（カウンターファクチュアル）」という概念が田島氏より紹介される。ログには、「それぞれのユーザーに対してレコメンドをしたか否か」の実績しか残っていない。しかし、施策を評価するために欲しいのは「レコメンドをしたユーザーに対して、もしレコメンドしなかったらどうだったのか」というデータだ。

　あるユーザーに「レコメンドを出したことによって何かを買ってもらえた」ということがあったと仮定し、それがレコメンドを出したから買ってもらえたのか、それとも出さなくても買ってもらえたのかについて比較したい。しかし、データとしてはどちらか片方しかないという難しい状況にどのように対処していくか。そこは、近年社会科学で発展してきた「統計的因果推論」という技術がAI領域でも使われるようになってきているという。

　そのうちの一つが「Doubly Robust（ダブリーロバスト）」という手法だ。スライド内の「レコメンド有り」、「レコメンド無し」。その左右で比較したい時、データとしてはどちらか片方しかないという状況である。そこへの対処方としては、2つあるという。1つは欠けている方のデータを、機械学習を使って予測していく方法。もう1つは、まずは表の縦方向で集計してしまって、その上で左右を比べる。その際に行ごとに重み付けを変えていくことでバイアスの影響を軽減するやり方だ。

　田島氏はこれら2つの手法について、それぞれ一長一短があると指摘する。そして、その点をうまく組み合わせたのがダブリーロバストという手法だという。この論文は、ダブリーロバストをランキング、すなわちリストの評価に適用している。

　Webサービスにおいては、検索結果や、レコメンドなど1つだけではなく複数の結果を出すことがよくある。このとき、あるアイテムについて評価したいときに、周囲に何を掲出していたのかが影響する。しかし、すべてのアイテムの影響を考慮に入れてしまうと、非常に複雑になる。そこである程度簡略化し、ユーザーは上から順番に見ていくと想定して、あるアイテムについては、それよりも上に出ているアイテムの影響だけを受けるという考え方が「カスケードモデル」だ。カスケードモデルを前提としたランキングの評価について、ダブリーロバストという手法をどのように適用するのかがこの論文の主たる提案内容だと説明した。

　最後に田島氏から、「Yahoo! JAPAN Tech Conference 2022」2日間のキーノートのふりかえり、そして続くセッションについて紹介し、Day2のキーノートは終了した。

この記事は参考になりましたか？