使用する分析環境・ツール
AWS環境下に分析するデータを整えたら、BIツールからデータにアクセスして分析を行います。
本連載では、BIツールとしてTableau Software社の「Tableau Desktop」を使用します。Tableau Desktopは、Amazon Redshiftをはじめとする多種多様なデータソースに対応しており、ドラッグ&ドロップ操作で直感的にグラフや図表を作成できます。分析に適した形でRedshiftに格納されたデータにTableau Desktopからアクセスして、任意の分析を行います。
なお、分析担当のユーザーが所定の環境にアクセスして分析作業を行った後、その記録を保存・共有し、情報の横展開や報告を行うというのはよく見られるケースです。そのため、最初に示したアーキテクチャ構成図には「Tableau Server」(Desktop版で作成したコンテンツの共有機能を有する)も載せました。ただし、この辺りは本連載のテーマからは若干外れるため、割愛する方向です。
分析インフラ環境を構築する要素の概略としては、以上となります。
ETLの重要性について
DWHを用いた分析の話には、よく「ETL」が出てきます。ETLはデータの抽出(Extract)、加工(Transform)、データのロード(Load)の頭文字を並べた言葉で、データの構造や内容を分析に適したものに整えるときに行う3種類の処理を表しています。
「データをDWHにインポートしてしまえば、後は思い通りに分析ができる」と思われるかもしれませんが、実はこのETLがとても重要です。お手持ちのデータの中には、このETL処理を行ってデータを加工せずに分析データとして扱える場合もありますが、「分析する」観点から見ると、必ずしもそのような構成になっているとは限りません。意図する構成になっていない場合には、Amazon S3にデータをアップロードする前の状態、すなわちファイルの状態でETL処理を行います。
また、Redshiftのテーブルにデータを投入してから、SQLで情報の結合・編集といった作業を行い、その結果を別テーブルに登録(=SQLベースでのETL処理)することも可能です。この辺りは、構築する環境や状況に応じて判断します。
分析したいことを1つに絞って環境を整えよう
手間をかけて環境を構築し、分析を行うのですから、多かれ少なかれ「こういう点を分析したい」「現状のこの情報について状況を把握したい」といったゴール(目的)があるはずです。
ただし、本連載のように全くのゼロから分析環境を構築する場合には、まず1つ、実現したい分析作業をピックアップし、その作業に適した情報・環境を構築していくことから始めて「分析作業のレール」を1本敷いてみるのが良いと思っています。構築の大まかな流れは次のとおりです。
- 行いたい分析をイメージする
- 行いたい分析に必要な情報・項目を考える
- 分析に必要な情報や項目をカバーしているテーブル構成を考える
- データが記述されたファイルをAmazon S3バケットへアップロードする
-
ファイルのデータをテーブルへ投入する前に、データを分析に適した形に整える手段を考える
- データが記述されたファイルにETL処理を行う
- データを一時テーブルに投入してSQLで加工する(SQLベースでのETL処理)
次回以降、上記の手順について、順を追って説明していきます。どうぞご期待ください。