SHOEISHA iD

※旧SEメンバーシップ会員の方は、同じ登録情報(メールアドレス&パスワード)でログインいただけます

CodeZine編集部では、現場で活躍するデベロッパーをスターにするためのカンファレンス「Developers Summit」や、エンジニアの生きざまをブーストするためのイベント「Developers Boost」など、さまざまなカンファレンスを企画・運営しています。

Amazon Redshiftによるビッグデータ分析環境の構築

Amazon Redshiftで構築するビッグデータ分析環境の構成要素と全体像

Amazon Redshiftによるビッグデータ分析環境の構築(1)


  • X ポスト
  • このエントリーをはてなブックマークに追加

使用する分析環境・ツール

 AWS環境下に分析するデータを整えたら、BIツールからデータにアクセスして分析を行います。

 本連載では、BIツールとしてTableau Software社の「Tableau Desktop」を使用します。Tableau Desktopは、Amazon Redshiftをはじめとする多種多様なデータソースに対応しており、ドラッグ&ドロップ操作で直感的にグラフや図表を作成できます。分析に適した形でRedshiftに格納されたデータにTableau Desktopからアクセスして、任意の分析を行います。

 なお、分析担当のユーザーが所定の環境にアクセスして分析作業を行った後、その記録を保存・共有し、情報の横展開や報告を行うというのはよく見られるケースです。そのため、最初に示したアーキテクチャ構成図には「Tableau Server」(Desktop版で作成したコンテンツの共有機能を有する)も載せました。ただし、この辺りは本連載のテーマからは若干外れるため、割愛する方向です。

 分析インフラ環境を構築する要素の概略としては、以上となります。

ETLの重要性について

 DWHを用いた分析の話には、よく「ETL」が出てきます。ETLはデータの抽出(Extract)、加工(Transform)、データのロード(Load)の頭文字を並べた言葉で、データの構造や内容を分析に適したものに整えるときに行う3種類の処理を表しています。

 「データをDWHにインポートしてしまえば、後は思い通りに分析ができる」と思われるかもしれませんが、実はこのETLがとても重要です。お手持ちのデータの中には、このETL処理を行ってデータを加工せずに分析データとして扱える場合もありますが、「分析する」観点から見ると、必ずしもそのような構成になっているとは限りません。意図する構成になっていない場合には、Amazon S3にデータをアップロードする前の状態、すなわちファイルの状態でETL処理を行います。

 また、Redshiftのテーブルにデータを投入してから、SQLで情報の結合・編集といった作業を行い、その結果を別テーブルに登録(=SQLベースでのETL処理)することも可能です。この辺りは、構築する環境や状況に応じて判断します。

分析したいことを1つに絞って環境を整えよう

 手間をかけて環境を構築し、分析を行うのですから、多かれ少なかれ「こういう点を分析したい」「現状のこの情報について状況を把握したい」といったゴール(目的)があるはずです。

 ただし、本連載のように全くのゼロから分析環境を構築する場合には、まず1つ、実現したい分析作業をピックアップし、その作業に適した情報・環境を構築していくことから始めて「分析作業のレール」を1本敷いてみるのが良いと思っています。構築の大まかな流れは次のとおりです。

  1. 行いたい分析をイメージする
  2. 行いたい分析に必要な情報・項目を考える
  3. 分析に必要な情報や項目をカバーしているテーブル構成を考える
  4. データが記述されたファイルをAmazon S3バケットへアップロードする
  5. ファイルのデータをテーブルへ投入する前に、データを分析に適した形に整える手段を考える
    • データが記述されたファイルにETL処理を行う
    • データを一時テーブルに投入してSQLで加工する(SQLベースでのETL処理)

 次回以降、上記の手順について、順を追って説明していきます。どうぞご期待ください。

この記事は参考になりましたか?

  • X ポスト
  • このエントリーをはてなブックマークに追加
Amazon Redshiftによるビッグデータ分析環境の構築連載記事一覧

もっと読む

この記事の著者

しんや(シンヤ)

2010年末~2013年前半位までの期間で興味のある勉強会に頻繁に参加。参加してきた勉強会のレポートブログとTogetterをひたすらまとめ続け、まとめ職人(自称/他称含む)として暫く過ごしておりました。色々な縁あってDevelopers Summit 2013では『公募レポーター』も務めました。2013年05月『出張ブロガー』を経て2013年08月にクラスメソッド株式会社へ転職。現在は業務(AWS及びその周辺技術を扱う)の...

※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です

この記事は参考になりましたか?

この記事をシェア

  • X ポスト
  • このエントリーをはてなブックマークに追加
CodeZine(コードジン)
https://codezine.jp/article/detail/7774 2014/09/17 20:37

おすすめ

アクセスランキング

アクセスランキング

イベント

CodeZine編集部では、現場で活躍するデベロッパーをスターにするためのカンファレンス「Developers Summit」や、エンジニアの生きざまをブーストするためのイベント「Developers Boost」など、さまざまなカンファレンスを企画・運営しています。

新規会員登録無料のご案内

  • ・全ての過去記事が閲覧できます
  • ・会員限定メルマガを受信できます

メールバックナンバー

アクセスランキング

アクセスランキング