「Cloudera Quick Start VM」を活用したビッグデータ分析の学習環境構築

フリーのVM環境を使って、ビッグデータ分析の学習環境をすばやく構築する

「Cloudera Quick Start VM」を活用したビッグデータ分析の学習環境構築　第1回

更新日: 2015/04/24
公開日: 2015/04/24

ポスト

　この連載では、フリーのVM環境「Cloudera Quick Start VM」を使って、ビッグデータ分析に必要な各種技術（データの取込み、非構造化データの分析、機械学習、全文検索など) を学習します。この連載を読むことで、ビッグデータ分析基盤に必要な基礎技術を学ぶことができます。第1回では、VM環境のダウンロードと起動、RDBMSからHadoopへのデータのインポート、Hadoop上でのテーブルの作成を行います。

ポスト

はじめに

　Hadoopを使って大規模データを蓄積し分析するのは、もはや当たり前になってきた昨今ですが、大規模データ分析の環境を試すのは、なかなか難しいというのが現状です。確かに、Hadoop単体やSQLエンジン単体なら、Amazon EMRやGoogle BigQueryなどを使うことで体験することは可能でしょう。しかし、大規模データの分析基盤では以下のようなことを行っていく必要があります。

RDBMSからデータをHadoopにインポートする
SQLを使って、大規模データを高速に分析する
アクセスログなどの大量の非構造化データを分析する
大量のデータに対し、リコメンドに利用するための高度な分析処理を行う
大量のデータを全文検索できるようにする

　これらすべてを試す環境を構築するのは、たとえクラウド環境を使ったとしても困難です。また、（検証環境としては）意外と高額な費用がかかってしまい、永続化した環境を持つには少しハードルが高くなっています。

　しかし、「Cloudera Quick Start VM」を使えば、自分のローカルPC1台のみで上記すべての処理を体験することができます。もちろん無料です。

　Quick Start VMには、ClouderaのHadoopディストリビューションであるCDHの最新版と、Hadoopの管理、監視などを行うソフトウェアであるCloudera Manager一式が入っています。それだけではなく、チュートリアルも付属しているのです。

　このチュートリアルを使えば、上記の使い方を簡単に学ぶことができます。

　この連載では全4回に渡って、Quick Start VMのチュートリアルに基づいてその進め方を説明していきます。

VMをダウンロードする

　Cloudera Quick Start VMのダウンロードページから、VMをダウンロードしてください。

　システム要件としてメモリ4GB、ファイルサイズ3GBと書いていますが、本来必要な量からは圧倒的に少ないので注意してください。

　ディスク容量は、20GBぐらいは見ておいた方が安心です。メモリは、CDH単体なら少なくとも5GB以上、Cloudera Manager（以降CM）を有効にするなら9～10GBはあった方がよいでしょう（デフォルトでCMはオフになっています）。

起動前の準備

　仮想マシンマネージャの設定を行い、上記システム要件に合うように設定します。

　VMWare PlayerやVMWare Fusionであれば、起動前に仮想マシンの設定から「プロセッサとメモリ」を選択することで設定可能です。

vmwareの設定図

会員登録無料すると、続きをお読みいただけます

新規会員登録無料のご案内

・全ての過去記事が閲覧できます
・会員限定メルマガを受信できます

メールバックナンバー

新規会員登録無料

次のページ
起動する

修正履歴: 2015/04/24 15:18 !quit部分を修正

この記事は参考になりましたか？

印刷用を表示

ポスト

「Cloudera Quick Start VM」を活用したビッグデータ分析の学習環境構築連載記事一覧: フリーのビッグデータ分析学習環境を使って、全文検索アプリケーションを構築してみる

フリーのビッグデータ分析学習環境を使って、Apache Sparkによるバスケット分析を行...

フリーのビッグデータ分析学習環境を使って、構造化データと非構造化データの分析を試してみる

もっと読む

この記事の著者: 嶋内翔（Cloudera株式会社）（シマウチショウ）

2011年、Clouderaの最初の日本人社員として入社。サポートエンジニアとして3年務めた後、セールスエンジニアとして働いている。監訳書に「Apache Sqoop クックブック」。ライフワークで技術系ポッドキャスティング garsue.fm のファシリテーターを務めている。

※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です

この著者の最近の執筆記事