はじめに
Hadoopを使って大規模データを蓄積し分析するのは、もはや当たり前になってきた昨今ですが、大規模データ分析の環境を試すのは、なかなか難しいというのが現状です。確かに、Hadoop単体やSQLエンジン単体なら、Amazon EMRやGoogle BigQueryなどを使うことで体験することは可能でしょう。しかし、大規模データの分析基盤では以下のようなことを行っていく必要があります。
- RDBMSからデータをHadoopにインポートする
- SQLを使って、大規模データを高速に分析する
- アクセスログなどの大量の非構造化データを分析する
- 大量のデータに対し、リコメンドに利用するための高度な分析処理を行う
- 大量のデータを全文検索できるようにする
これらすべてを試す環境を構築するのは、たとえクラウド環境を使ったとしても困難です。また、(検証環境としては)意外と高額な費用がかかってしまい、永続化した環境を持つには少しハードルが高くなっています。
しかし、「Cloudera Quick Start VM」を使えば、自分のローカルPC1台のみで上記すべての処理を体験することができます。もちろん無料です。
Quick Start VMには、ClouderaのHadoopディストリビューションであるCDHの最新版と、Hadoopの管理、監視などを行うソフトウェアであるCloudera Manager一式が入っています。それだけではなく、チュートリアルも付属しているのです。
このチュートリアルを使えば、上記の使い方を簡単に学ぶことができます。
この連載では全4回に渡って、Quick Start VMのチュートリアルに基づいてその進め方を説明していきます。
VMをダウンロードする
Cloudera Quick Start VMのダウンロードページから、VMをダウンロードしてください。
システム要件としてメモリ4GB、ファイルサイズ3GBと書いていますが、本来必要な量からは圧倒的に少ないので注意してください。
ディスク容量は、20GBぐらいは見ておいた方が安心です。メモリは、CDH単体なら少なくとも5GB以上、Cloudera Manager(以降CM)を有効にするなら9~10GBはあった方がよいでしょう(デフォルトでCMはオフになっています)。
起動前の準備
仮想マシンマネージャの設定を行い、上記システム要件に合うように設定します。
VMWare PlayerやVMWare Fusionであれば、起動前に仮想マシンの設定から「プロセッサとメモリ」を選択することで設定可能です。