【デブサミ2017】セッションレポート（AD）

メタデータ管理は全ての事業の基礎となる――多彩なサービスを提供するYahoo! JAPANが立ち向かう、データ管理についての課題と挑戦【デブサミ2017】

【16-A-1】「データテクノロジースペシャル」Yahoo! JAPANにおけるメタデータ管理の試み

2017/03/24 14:00

ポスト

　Yahoo! JAPANは、種類、量ともに増え続けるビッグデータをいかに資産化し、活用できる状態にしていくかという課題に挑み続けている。同社の吉野彰真氏が所属するデータ＆サイエンスソリューション統括本部は、全社的なデータ利活用を考える共通部門で、吉野氏はデータマネジメント領域を担当している。本セッションでは、データマネジメント領域におけるYahoo! JAPANの取り組み――特に、データの所在や概要を示すメタデータの収集・管理について、検討しているソリューションや管理上のポイントなどが語られた。

ポスト

講演資料：「データテクノロジースペシャル」Yahoo! JAPANにおけるメタデータ管理の試み

ヤフー株式会社データ＆サイエンスソリューション統括本部データサービス本部吉野彰真氏

ビッグデータを駆使するデータドリブン企業を目指す

　「Yahoo! JAPAN」は2016年4月に20周年を迎えた。サービス開始当初の月間ページビューは約30万だったが、現在は600億以上と、多くのユーザーが利用するWebサイトに成長した。事業面でもサービス開始以来、増収増益が続いている。さらに、インターネット企業の時価総額をグローバルで見るとYahoo! JAPANは18位と言われており、日本国内のインターネット企業では最も高くなっている。

　ユーザー数に目を向けると、2016年の実績は1日あたり約9000万ユニークブラウザ（サービスの訪問者数をブラウザ単位で集計した値）であり、多くの人々が使っていることがうかがえる。

　Yahoo! JAPANは創業時からの主力サービスである検索だけでなく、複数の領域にまたがる事業を展開していることに特徴がある。例を挙げると、メディアサービスの「Yahoo!ニュース」や「Yahoo!知恵袋」、ｅコマースサービスの「Yahoo!ショッピング」や「ヤフオク!」、そして、決済サービスの「Yahoo!ウォレット」や「Yahoo! JAPANカード（クレジットカード）」などだ。このような、多岐にわたる事業領域において、有力なサービスを複数抱える企業は世界的にも珍しいという。

米国の専門企業と比較すると、Yahoo! JAPANは幅広い領域で事業を展開していることが分かる

　しかし吉野氏は、「私たち（Yahoo! JAPAN）はもっと人々や社会の課題を解決していきたいと思っている」と、語る。そのために、インターネットでサービスを展開する「ネット企業」から、さらに発展した「データドリブン企業」へ変わっていきたいという強い思いがあるという。

　最近は、「AI」や「ディープラーニング」「シンギュラリティ」などがホットなワードとなっており、状況次第では産業革命に匹敵する影響を世の中におよぼすといわれている。「AIを作っていく中で、最も重要なのはデータ」と、吉野氏は解説する。なぜなら、データを入力して学習させなければ、AIの認知能力が向上することもないからだ。そのため、AIを扱うのであれば、ビッグデータについても併せて考える必要がある。

　Yahoo! JAPANはこのビックデータを最大の強みにしていきたいと考えている。先述した通り、Yahoo! JAPANのサービス領域は多岐にわたる。つまり、マルチなデータセットを持っているということである。

　Yahoo! JAPANの多様なサービスをユーザーが利用するとデータが貯まる。AIなどを駆使してそのデータから気づきを得る。さらに気づきからサービスを改善したり、新しい機能を提供したりすることで、より多くの人に使ってもらえる。その結果、さらに多くのデータが集まる――このサイクルはデータ＝エコシステムの源泉となり、「無限の再帰性」を生み出す可能性を秘めている。吉野氏は「このようにデータから得た気づきを最大限に活用して、Yahoo! JAPANにしかできない提案・サービスを提供していきたい」と、語った。

　では、「ビッグデータの無限の再帰性」を生むためには、どのようなポイントがあるのだろうか？吉野氏は、自身の専門でもあるデータを、いかに効率よく運用していくかに注目し、次のように解説した。

　現在のYahoo! JAPANは、月間で約674億（2016年10-12月の平均）のページビューがある。これらの膨大なアクセスデータを保持するプラットフォームにはHadoopやRDB、NoSQL、Object Strage（社内で管理しているクラウドストレージ）、DWH（データウェアハウス）などが使用されている。その中でも、Hadoopには7000ノード／150ペタバイトという膨大なデータが蓄積されている。

　また、Yahoo! JAPANはオープンソースの活用を進めており、2015年からは米国のHortonworks社との共同開発を実施している。さらに、2016年には技術力のさらなる強化を目的として、シリコンバレーに拠点を開設した。

　吉野氏は「データを蓄積するプラットフォームは充実している。これからは、増え続けるボリュームに対してどこまで価値を引き出し、サービスに生かしていけるか――投資した分どれだけリターンがあるのか、考慮しないといけない段階に入ってきている」と、語る。

　そこで重要となるのが、プラットフォーム管理にとどまらない、データそのもののマネジメントだ。吉野氏は続けて、「データは資産なので、その資産価値を最大化する活動をしなくてはいけない。それがデータマネジメントだ、という定義をしたい」と、述べた。

データマネジメントのためのフレームワークとYahoo! JAPANが抱える課題

　データマネジメントに役立つフレームワークは主に2つある。

　1つはプロジェクト管理の知識体系であるPMBOKを元に作られた「DMBOK（Data Management Body of Knowledge）」で、これはデータマネジメントを包括的に進めるための共通の認識や規範を作ることを目的にした知識体系だ。

　もう1つは、ソフトウェア開発時に企業のプロセスの成熟度を定義したモデル「CMMI（Capability Maturity Model Integration）」を作った団体がデータにフォーカスして作成した、データプロセスの成熟度モデルである「DMM（Data Management Maturity）」だ。

　しかし、Yahoo! JAPANのように多くのサービスを提供している企業の場合、データマネジメントには難しいポイントがいくつかあるという。

データ構造の問題

　Yahoo! JAPANで取り扱っているデータは、構造がまちまちだ。その中でもログデータは多くの割合を占めるが、それらは形式が定まっていない準構造化データだ。また、画像や音声などの非構造化データも多い。そのため、管理するデータが構造化データのみであるケースと比較すると管理が煩雑になりがちだ。

事業構造の問題

　Yahoo! JAPANの事業領域は多岐にわたり、それぞれが独立した部門でサービスを提供している。そのため、全社横断でデータを取り扱うことが難しいという問題がある。

企業文化の問題

　Yahoo! JAPANには自立的な社員が多く、ボトムアップで物事を進めていく事も数多い。そのため、各自がデータマネジメントの必要性を理解してモチベーションを上げていく必要がある。

データマネジメントの優先領域を定義

　このような課題がある中、吉野氏のチームはDMBOKやDMMを参考にマネジメント領域を定義した。そして、現時点で「できていること」「できていないこと」を分析し、領域ごとに「やるべきこと」を整理していった。さらに、「いつまでにどれくらいの優先度で行うか」と、いうことをまとめていった。

　吉野氏は、現在注力している領域を具体例として4つ紹介した。

データスチュワードシップ

　全社横断的にデータの課題を議論する枠組みが存在しない中、全社規模でデータに関する課題の共有、解決をできるようにするための組織・役割の検討を行う活動だ。各サービスに従事して実際にデータを扱う人にも参加してもらい、意見を聞くこともある。

データ標準化

　全社に共通した「データ設計」「用語集」「KPI」などの標準がないため、その策定を目指している。そして、決めた標準を基にして達成度や成熟度を計測し、評価まで行いたいと考えている。

　さらに、データを標準化することで意志決定のスピードが上がることを狙う。各サービスの事業部門に対しては「標準にのっとると楽になる」という意識を定着させていく。最終的には全社が最適化されることを目指す。

データライフサイクル／エコシステム

　現在のYahoo! JAPANではデータの保管・運用コストと活用による効果のバランスが十分に把握しきれていない。そのため、蓄積しているデータの利用状況を可視化し、把握することでより良いサイクルを回していくことを目指している。

　例えばHadoopのアクセス回数を蓄積した時期別に確認すると、半年以上前のデータへのアクセスは少ないことが分かる。この情報があることにより、「半年以上前のデータは遅いが安価なストレージに置く」と、いった方針を立てやすくなる。

メタデータ管理

　メタデータとはデータに付随しているデータのことだ。例えば図書館や書店にある本に書かれていることはデータそのもので、その本のタイトルやあらすじ、著者、出版社、版、価格など、その本を管理するのに必要なデータがメタデータということになる。

　データを資産と捉える上で、「どこにどのようなデータが存在しているのか」という情報を管理することは非常に重要だ。

メタデータの分類

　吉野氏は、企業に関わるメタデータを以下のように分類している。

　「データの価値」はデータの利用価値そのものである。資産としてのデータの活用を進めていく中で管理が必要になってくる項目であり、例を挙げると、データによる意思決定や利用の実績、そのデータの持つポテンシャルの試算値などが該当する。

　「データ品質」は、データの品質の良しあしを判断するためのメタデータだ。例えば「NULL」が含まれてはいけないデータの精度を可視化したい場合、一定の割合を超えると品質が悪い、といった判断ができる。

　「データフロー」（データリネージとも呼ばれる）はデータの加工元から加工先の関連を示す情報である。データの利用が活性化し、データの連携や加工が高度化してくると重要性が高まるものだ。

　「運用メタデータ」は、SLAや連絡先、データのオーナーなどの情報が該当する。

　「ビジネスメタデータ」は、ビジネスとして利用する上で必要となるデータのことを指す。日本語の説明やコード体系、例えば性別を「男性=0、女性=1」と定義した情報が当てはまる。

　「テクニカルメタデータ」は、プラットフォームの処理系に依存するフィジカルなメタデータだ。テーブルやカラムの定義、ファイルパス、サーバなどが該当する。

メタデータ取得とデータ資産把握、それぞれの課題

　上述のようにメタデータには多くの種類があり、自動で取得できるものと人の手を必要とするものがある。テクニカルメタデータに関しては自動で取得できることも多いが、ビジネスメタデータの場合はコード値の定義などを手動で行う必要がある。

　また、種類が多く、取得範囲も多岐に渡るメタデータにおいては、適切な範囲、種類においての取得選択が必要となってくる。どのデータを取得するのか、課題ベースで考えて選ぶことが重要となる。

　現在Yahoo! JAPANでは、データ資産の全体像が完全に把握できていないことで、データ資産の全てを活用しきれていないという課題を抱えている。「どのようなデータがあるのか、という事実だけでもいいので、一通りデータの存在を把握したい」と、吉野氏は語る。データを入力した本人しか把握できないものを社内で横断的に利用することは難しいからだ。また、人的リソースの問題が「人力で全てのデータを入力する」ということを困難にしている。その上、社内のWikiやExcelでバラバラに管理されているものを、管理しやすい状態に移行してもらうための動機付けも不十分なのだという――このように、さまざまな問題が積み重なっているという現状がある。

　では、このような問題をどのように改善していけばいいのだろうか。

　吉野氏は「自動的に取得可能なデータについては全て取得し、網羅率100％を目指す。データの充実度については、ルールとして取得する範囲をあらかじめ決めておく」と、改善策を述べた。

　さらに、構想段階の具体案を2点説明した。1つ目は、構造化／準構造化／非構造化といったデータの種類を問わず、100％取得する、ということ。

　2つ目は、課題に対して必要な範囲を決め、データを集める際の明確なルールを作っていく必要があるということ。例えばデータサイズの大きいもの、Hadoopのデータであれば上位10％を占めるサイズのものを取得することで全体の80％の量をカバーできるとする。すると、取得の優先度を決定しやすくなる。

　さらに、メタデータ管理については「定量的で明快なルールを定める」「全社的にデータの管理がしやすい組織を作っていく」の2段構えで取り組んでいく、とした。

　吉野氏は最後に、「データを資産と考えるのであれば、メタデータ管理は最初に基礎としてやらなければいけないこと。ひいては全ての事業の基礎、というつもりでやり遂げる必要がある」と、強調した。さらに、「技術的なノウハウを積みあげ、ビッグデータにおけるデータマネジメントに関してはグローバル基準でも模範となるような活動を目指したい」と展望を語り、セッションを締めくくった。