記事の情報は登壇当時のものになります。
データを可視化するDS.INSIGHT・DS.GALLERY、具体的な使い方
ヤフーが展開するヤフー・データソリューションとは、ヤフーのさまざまなサービスで取得・蓄積したビッグデータを分析できるサービスである。その中には可視化までしてくれるサービスがある。それが「DS.INSIGHT」と「DS.GALLERY」である。
「DS.INSIGHT」はヤフーのビッグデータを分析できるデスクリサーチツールで、「企業や教育機関に提供している」と猪目氏は説明する。一方の「DS.GALLERY」は、会員登録が不要で、データ可視化コンテンツを一般向けに提供しているサービスである。
具体的にどんなデータが可視化されるのか。ここで猪目氏はまず、DS.INSIGHTのデモを実施。基本画面で検索窓にキーワードを入力すると、そのワードと一緒に検索されたキーワード(共起キーワード)がマップ形式で表示されるのだ。それらのキーワードについて性別や地域別割合という切り口でも見ることができる。
地域別の面白い事例として、「豚まん」と「肉まん」と言うキーワードを使って分析の例を紹介。肉まんは関東、豚まんは関西でより多く検索されていることがはっきりと日本地図に示された。そのほかにも検索数の推移グラフなども用意されており、例えば先の「肉まん」や「豚まん」は、「冬になると上昇するワード」と猪目氏は話す。
DS.GALLERYでは、最近急上昇しているトレンドワードをチェックできる。それらのトレンドワードの性別や年代別の割合も表示。カテゴリーごとのランキングも見ることができる。「毎週更新。カテゴリー30種の中で3つのカテゴリーをピックアップしています」と猪目氏。すべてのカテゴリーを見たい場合は、DS.INSIGHTへの登録が必要だ。
このようなデータ活用の仕組みをヤフーではどう作ったのか。データはユーザーのアクションから生まれる。ページの閲覧やリンククリック、検索、購入などのユーザーのアクションがログとして記録され、ロギングAPIによってデータレイクに送られる。データレイクとは「ヤフーの多種多様かつ膨大なデータをまとめて保管しておくストレージ。ヤフーではApache Hadoopを使用している」と猪目氏は説明する。
アナリストはデータレイクのデータを活用することもできるが、ヤフーではデータをより活用しやすく整理した、データハウスやデータマートも用意。データソリューションでは分析用にTeradata、可視化ツール用にオブジェクトストレージ、Apache Cassandraなどを使用している。
可視化ツールとは、データを理解しやすいようにグラフ化やダッシュボード化をするためのツール。ヤフーが提供しているのが、DS.INSIGHTやDS.GALLERYである。アナリストはこれらの可視化ツールを使って分析をすることになるが、ヤフーでは可視化ツールを社内外のアナリストに提供している。またアナリストがデータベースから直接データを取得して分析する場合は、「Tableauがよく使われている」と猪目氏は語る。