Shoeisha Technology Media

CodeZine(コードジン)

特集ページ一覧

フリーのVM環境を使って、ビッグデータ分析の学習環境をすばやく構築する

「Cloudera Quick Start VM」を活用したビッグデータ分析の学習環境構築 第1回

  • ブックマーク
  • LINEで送る
  • このエントリーをはてなブックマークに追加
2015/04/24 14:00

 この連載では、フリーのVM環境「Cloudera Quick Start VM」を使って、ビッグデータ分析に必要な各種技術(データの取込み、非構造化データの分析、機械学習、全文検索など) を学習します。この連載を読むことで、ビッグデータ分析基盤に必要な基礎技術を学ぶことができます。第1回では、VM環境のダウンロードと起動、RDBMSからHadoopへのデータのインポート、Hadoop上でのテーブルの作成を行います。

目次

はじめに

 Hadoopを使って大規模データを蓄積し分析するのは、もはや当たり前になってきた昨今ですが、大規模データ分析の環境を試すのは、なかなか難しいというのが現状です。確かに、Hadoop単体やSQLエンジン単体なら、Amazon EMRやGoogle BigQueryなどを使うことで体験することは可能でしょう。しかし、大規模データの分析基盤では以下のようなことを行っていく必要があります。

  • RDBMSからデータをHadoopにインポートする
  • SQLを使って、大規模データを高速に分析する
  • アクセスログなどの大量の非構造化データを分析する
  • 大量のデータに対し、リコメンドに利用するための高度な分析処理を行う
  • 大量のデータを全文検索できるようにする

 これらすべてを試す環境を構築するのは、たとえクラウド環境を使ったとしても困難です。また、(検証環境としては)意外と高額な費用がかかってしまい、永続化した環境を持つには少しハードルが高くなっています。

 しかし、「Cloudera Quick Start VM」を使えば、自分のローカルPC1台のみで上記すべての処理を体験することができます。もちろん無料です。

 Quick Start VMには、ClouderaのHadoopディストリビューションであるCDHの最新版と、Hadoopの管理、監視などを行うソフトウェアであるCloudera Manager一式が入っています。それだけではなく、チュートリアルも付属しているのです。

 このチュートリアルを使えば、上記の使い方を簡単に学ぶことができます。

 この連載では全4回に渡って、Quick Start VMのチュートリアルに基づいてその進め方を説明していきます。

VMをダウンロードする

 Cloudera Quick Start VMのダウンロードページから、VMをダウンロードしてください。

 システム要件としてメモリ4GB、ファイルサイズ3GBと書いていますが、本来必要な量からは圧倒的に少ないので注意してください。

 ディスク容量は、20GBぐらいは見ておいた方が安心です。メモリは、CDH単体なら少なくとも5GB以上、Cloudera Manager(以降CM)を有効にするなら9~10GBはあった方がよいでしょう(デフォルトでCMはオフになっています)。

起動前の準備

 仮想マシンマネージャの設定を行い、上記システム要件に合うように設定します。

 VMWare PlayerやVMWare Fusionであれば、起動前に仮想マシンの設定から「プロセッサとメモリ」を選択することで設定可能です。

vmwareの設定図
vmwareの設定図

  • ブックマーク
  • LINEで送る
  • このエントリーをはてなブックマークに追加

修正履歴

  • 2015/04/24 15:18 !quit部分を修正

著者プロフィール

  • 嶋内 翔(Cloudera株式会社)(シマウチ ショウ)

    2011年、Clouderaの最初の日本人社員として入社。サポートエンジニアとして3年務めた後、セールスエンジニアとして働いている。監訳書に「Apache Sqoop クックブック」。ライフワークで技術系ポッドキャスティング garsue.fm のファシリテーターを務めている。

バックナンバー

連載:「Cloudera Quick Start VM」を活用したビッグデータ分析の学習環境構築
All contents copyright © 2005-2019 Shoeisha Co., Ltd. All rights reserved. ver.1.5