SHOEISHA iD

※旧SEメンバーシップ会員の方は、同じ登録情報(メールアドレス&パスワード)でログインいただけます

CodeZine編集部では、現場で活躍するデベロッパーをスターにするためのカンファレンス「Developers Summit」や、エンジニアの生きざまをブーストするためのイベント「Developers Boost」など、さまざまなカンファレンスを企画・運営しています。

「Cloudera Quick Start VM」を活用したビッグデータ分析の学習環境構築

フリーのVM環境を使って、ビッグデータ分析の学習環境をすばやく構築する

「Cloudera Quick Start VM」を活用したビッグデータ分析の学習環境構築 第1回


  • X ポスト
  • このエントリーをはてなブックマークに追加

 この連載では、フリーのVM環境「Cloudera Quick Start VM」を使って、ビッグデータ分析に必要な各種技術(データの取込み、非構造化データの分析、機械学習、全文検索など) を学習します。この連載を読むことで、ビッグデータ分析基盤に必要な基礎技術を学ぶことができます。第1回では、VM環境のダウンロードと起動、RDBMSからHadoopへのデータのインポート、Hadoop上でのテーブルの作成を行います。

  • X ポスト
  • このエントリーをはてなブックマークに追加

はじめに

 Hadoopを使って大規模データを蓄積し分析するのは、もはや当たり前になってきた昨今ですが、大規模データ分析の環境を試すのは、なかなか難しいというのが現状です。確かに、Hadoop単体やSQLエンジン単体なら、Amazon EMRやGoogle BigQueryなどを使うことで体験することは可能でしょう。しかし、大規模データの分析基盤では以下のようなことを行っていく必要があります。

  • RDBMSからデータをHadoopにインポートする
  • SQLを使って、大規模データを高速に分析する
  • アクセスログなどの大量の非構造化データを分析する
  • 大量のデータに対し、リコメンドに利用するための高度な分析処理を行う
  • 大量のデータを全文検索できるようにする

 これらすべてを試す環境を構築するのは、たとえクラウド環境を使ったとしても困難です。また、(検証環境としては)意外と高額な費用がかかってしまい、永続化した環境を持つには少しハードルが高くなっています。

 しかし、「Cloudera Quick Start VM」を使えば、自分のローカルPC1台のみで上記すべての処理を体験することができます。もちろん無料です。

 Quick Start VMには、ClouderaのHadoopディストリビューションであるCDHの最新版と、Hadoopの管理、監視などを行うソフトウェアであるCloudera Manager一式が入っています。それだけではなく、チュートリアルも付属しているのです。

 このチュートリアルを使えば、上記の使い方を簡単に学ぶことができます。

 この連載では全4回に渡って、Quick Start VMのチュートリアルに基づいてその進め方を説明していきます。

VMをダウンロードする

 Cloudera Quick Start VMのダウンロードページから、VMをダウンロードしてください。

 システム要件としてメモリ4GB、ファイルサイズ3GBと書いていますが、本来必要な量からは圧倒的に少ないので注意してください。

 ディスク容量は、20GBぐらいは見ておいた方が安心です。メモリは、CDH単体なら少なくとも5GB以上、Cloudera Manager(以降CM)を有効にするなら9~10GBはあった方がよいでしょう(デフォルトでCMはオフになっています)。

起動前の準備

 仮想マシンマネージャの設定を行い、上記システム要件に合うように設定します。

 VMWare PlayerやVMWare Fusionであれば、起動前に仮想マシンの設定から「プロセッサとメモリ」を選択することで設定可能です。

vmwareの設定図
vmwareの設定図

次のページ
起動する

修正履歴

この記事は参考になりましたか?

  • X ポスト
  • このエントリーをはてなブックマークに追加
「Cloudera Quick Start VM」を活用したビッグデータ分析の学習環境構築連載記事一覧

もっと読む

この記事の著者

嶋内 翔(Cloudera株式会社)(シマウチ ショウ)

2011年、Clouderaの最初の日本人社員として入社。サポートエンジニアとして3年務めた後、セールスエンジニアとして働いている。監訳書に「Apache Sqoop クックブック」。ライフワークで技術系ポッドキャスティング garsue.fm のファシリテーターを務めている。

※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です

この記事は参考になりましたか?

この記事をシェア

  • X ポスト
  • このエントリーをはてなブックマークに追加
CodeZine(コードジン)
https://codezine.jp/article/detail/8560 2015/04/24 15:18

おすすめ

アクセスランキング

アクセスランキング

イベント

CodeZine編集部では、現場で活躍するデベロッパーをスターにするためのカンファレンス「Developers Summit」や、エンジニアの生きざまをブーストするためのイベント「Developers Boost」など、さまざまなカンファレンスを企画・運営しています。

新規会員登録無料のご案内

  • ・全ての過去記事が閲覧できます
  • ・会員限定メルマガを受信できます

メールバックナンバー

アクセスランキング

アクセスランキング