CodeZine(コードジン)

特集ページ一覧

Amazon Redshiftで構築するビッグデータ分析環境の構成要素と全体像

Amazon Redshiftによるビッグデータ分析環境の構築(1)

  • LINEで送る
  • このエントリーをはてなブックマークに追加
2014/05/30 14:00

目次

使用する分析環境・ツール

 AWS環境下に分析するデータを整えたら、BIツールからデータにアクセスして分析を行います。

 本連載では、BIツールとしてTableau Software社の「Tableau Desktop」を使用します。Tableau Desktopは、Amazon Redshiftをはじめとする多種多様なデータソースに対応しており、ドラッグ&ドロップ操作で直感的にグラフや図表を作成できます。分析に適した形でRedshiftに格納されたデータにTableau Desktopからアクセスして、任意の分析を行います。

 なお、分析担当のユーザーが所定の環境にアクセスして分析作業を行った後、その記録を保存・共有し、情報の横展開や報告を行うというのはよく見られるケースです。そのため、最初に示したアーキテクチャ構成図には「Tableau Server」(Desktop版で作成したコンテンツの共有機能を有する)も載せました。ただし、この辺りは本連載のテーマからは若干外れるため、割愛する方向です。

 分析インフラ環境を構築する要素の概略としては、以上となります。

ETLの重要性について

 DWHを用いた分析の話には、よく「ETL」が出てきます。ETLはデータの抽出(Extract)、加工(Transform)、データのロード(Load)の頭文字を並べた言葉で、データの構造や内容を分析に適したものに整えるときに行う3種類の処理を表しています。

 「データをDWHにインポートしてしまえば、後は思い通りに分析ができる」と思われるかもしれませんが、実はこのETLがとても重要です。お手持ちのデータの中には、このETL処理を行ってデータを加工せずに分析データとして扱える場合もありますが、「分析する」観点から見ると、必ずしもそのような構成になっているとは限りません。意図する構成になっていない場合には、Amazon S3にデータをアップロードする前の状態、すなわちファイルの状態でETL処理を行います。

 また、Redshiftのテーブルにデータを投入してから、SQLで情報の結合・編集といった作業を行い、その結果を別テーブルに登録(=SQLベースでのETL処理)することも可能です。この辺りは、構築する環境や状況に応じて判断します。

分析したいことを1つに絞って環境を整えよう

 手間をかけて環境を構築し、分析を行うのですから、多かれ少なかれ「こういう点を分析したい」「現状のこの情報について状況を把握したい」といったゴール(目的)があるはずです。

 ただし、本連載のように全くのゼロから分析環境を構築する場合には、まず1つ、実現したい分析作業をピックアップし、その作業に適した情報・環境を構築していくことから始めて「分析作業のレール」を1本敷いてみるのが良いと思っています。構築の大まかな流れは次のとおりです。

  1. 行いたい分析をイメージする
  2. 行いたい分析に必要な情報・項目を考える
  3. 分析に必要な情報や項目をカバーしているテーブル構成を考える
  4. データが記述されたファイルをAmazon S3バケットへアップロードする
  5. ファイルのデータをテーブルへ投入する前に、データを分析に適した形に整える手段を考える
    • データが記述されたファイルにETL処理を行う
    • データを一時テーブルに投入してSQLで加工する(SQLベースでのETL処理)

 次回以降、上記の手順について、順を追って説明していきます。どうぞご期待ください。



  • LINEで送る
  • このエントリーをはてなブックマークに追加

バックナンバー

連載:Amazon Redshiftによるビッグデータ分析環境の構築

著者プロフィール

  • しんや(シンヤ)

    2010年末~2013年前半位までの期間で興味のある勉強会に頻繁に参加。参加してきた勉強会のレポートブログとTogetterをひたすらまとめ続け、まとめ職人(自称/他称含む)として暫く過ごしておりました。色々な縁あってDevelopers Summit 2013では『公募レポーター』も務めました。...

あなたにオススメ

All contents copyright © 2005-2021 Shoeisha Co., Ltd. All rights reserved. ver.1.5