SHOEISHA iD

※旧SEメンバーシップ会員の方は、同じ登録情報(メールアドレス&パスワード)でログインいただけます

CodeZine編集部では、現場で活躍するデベロッパーをスターにするためのカンファレンス「Developers Summit」や、エンジニアの生きざまをブーストするためのイベント「Developers Boost」など、さまざまなカンファレンスを企画・運営しています。

【デブサミ2018】セッションレポート(AD)

クラウドストレージならではの利点を活用――「BigQuery」で高性能かつ安価なデータ分析基盤を実現しよう!【デブサミ2018】

【16-A-L】とりあえずBigQueryに突っ込んでみたデータの活用法

  • X ポスト
  • このエントリーをはてなブックマークに追加

 かつては高価だったデータウェアハウスは、クラウドの普及によって今や高性能かつ安価に利用できるインフラになりつつある。そうした中で注目を浴びているのが、Google Cloud Platformが提供している、サーバーレスのエンタープライズ・データウェアハウス「BigQuery」だ。そのバックエンドでは数百~数千台のサーバーがクエリを分散実行し、1クエリに対して約1000~2000コアが使用されている。そうした高性能にもかかわらず料金は一般のオンラインストレージ並みで、「とにかく速くて安い」高コストパフォーマンスぶりが人気を博している。だが一方で「とりあえずBigQueryに突っ込んでおいた」のはいいが、肝心の膨大なデータ資産の使い方に悩む企業も増えている。株式会社grasysの樋口健二氏は、そうした「BigQueryに集めたデータ活用の実践的ヒント」について紹介した。

  • X ポスト
  • このエントリーをはてなブックマークに追加

株式会社grasys Engineer 樋口健二氏
株式会社grasys Engineer 樋口健二氏

ツイート分析でBigQueryのビックデータ分散処理を実地検証

 樋口氏は、「BigQuery」を使ってビッグデータの分散処理を行い、それを同じくGoogle Cloud Platformで提供されているBIツール「Google Data Studio」で可視化するという、一連のプロセスを通じて、データ分析基盤の構築・運用に関する検証を自ら行ったと話す。

 BigQueryによるビッグデータの分散処理で特徴的なのは、Apache HadoopやApache Sparkといった大規模な分散処理のための分析基盤をあらかじめ構築しなくても済む点だ。

 「BigQueryのバックエンドには数百~数千台規模の分散処理用サーバーが稼働しており、クエリに分析のロジックを埋め込めるのであればリソースはこれで十分です。またQueryはUDF(ユーザー定義関数)にJavaScriptが使用できるので、JavaScriptが書けるユーザーならば、サーバーレスでこの分析環境を実現できます」

 今回実際の検証として行ったのは、Twitterのツイートを収集して、数の多いものを「流行ワード」として分析する作業だ。

 具体的には、あるゲームのハッシュタグがついているツイートを1週間分、API経由で取得してBigQueryに集積。一方でツイート内容からワードを抽出するUDFを作成してクエリを実行し、集計結果の中から数の多いワードを見える化する。

 今回の検証では約89万3000行のレコード数、テーブルサイズ0.2GBに当たるツイートを収集・分析した。クエリの実行にかかった時間は20秒弱。かかった料金はわずか0.11円だったという。

約3億1000万レコードの生データを3秒弱で分析・グラフ化

 次にトライしたのは、ビッグデータの可視化だ。検証の課題として、生のビッグデータをGoogle Data Studioでグラフ化し「見える化」した。

 Google Data StudioはGoogle Cloud Platform上で提供されており、もちろんGoogle Data Studioとシームレスに連携しながら、さまざまなデータの分析・可視化が可能だ。操作も容易で、誰でも簡単にダッシュボードやレポートを作成できる。樋口氏は「Google Data Studioの魅力は、ビックデータを可視化できて共有できる『無料の』BIツールである点だ」と強調する。

Google Data Studio のレポート(ダッシュボード)
Google Data Studio のレポート(ダッシュボード)

 今回使ったデータソースはBigQueryの公開データセットで、Wikipediaから取得している。約3億1000万レコード、データサイズ約38GBのテーブルに対して、Wikipediaの改訂履歴の投稿数を日別に集計するクエリを実行した。グラフの描画速度をChromeのDeveloper Toolsで計測したところ、ブラウザのページリロードからグラフ描画までは3秒弱。レポートのリロードだけならば約1.5秒と、非常に速いことがわかる。なおコストは2.03円と、こちらも実に安い。

 「これほど大きな、しかも生のビッグデータからの集計・データ生成でも、この程度の描画速度とコストで済んでしまいます。データ量によっては、レポート用の集計すら必要ないでしょう。これだけ見てもGoogle Data Studioのパフォーマンスのすごさがわかります。もっとも描画速度と省コストは、BigQueryの実力による部分が大きいです」

 樋口氏は、「BigQueryはこれだけの速さとコストの安さを備えているのだから、BIツールがクエリを自動的にキャッシュして再利用してくれれば、描画速度とコスト双方の面で大きなメリットがある」と指摘する。そのためにGoogle Data Studioには、以下の2つのキャッシュ機能が提供されている。

クエリキャッシュ

 レポートで使用されたクエリの結果をキャッシュして、同じクエリが発行されたら再利用する。

プリフェッチ キャッシュ

 レポートからユーザーの行う操作を予測して、操作前にクエリを発行し、そのクエリと結果をキャッシュする。

 なお、これらのキャッシュは、ユーザーがいつレポートを開いても迅速に描画できるように、いずれも自動更新される仕組みになっている。

次のページ
まだまだ課題も多く発展途上だが急速に進化中で今後に期待

この記事は参考になりましたか?

  • X ポスト
  • このエントリーをはてなブックマークに追加
【デブサミ2018】セッションレポート連載記事一覧

もっと読む

この記事の著者

CodeZine編集部(コードジンヘンシュウブ)

CodeZineは、株式会社翔泳社が運営するソフトウェア開発者向けのWebメディアです。「デベロッパーの成長と課題解決に貢献するメディア」をコンセプトに、現場で役立つ最新情報を日々お届けします。

※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です

【AD】本記事の内容は記事掲載開始時点のものです 企画・制作 株式会社翔泳社

この記事は参考になりましたか?

この記事をシェア

  • X ポスト
  • このエントリーをはてなブックマークに追加
CodeZine(コードジン)
https://codezine.jp/article/detail/10696 2018/03/14 14:00

おすすめ

アクセスランキング

アクセスランキング

イベント

CodeZine編集部では、現場で活躍するデベロッパーをスターにするためのカンファレンス「Developers Summit」や、エンジニアの生きざまをブーストするためのイベント「Developers Boost」など、さまざまなカンファレンスを企画・運営しています。

新規会員登録無料のご案内

  • ・全ての過去記事が閲覧できます
  • ・会員限定メルマガを受信できます

メールバックナンバー

アクセスランキング

アクセスランキング