CodeZine(コードジン)

特集ページ一覧

【デブサミ秋2015】S2セッションレポート
収集から可視化までの機能を網羅! Azureはビッグデータ活用のプラットフォームだ

  • ブックマーク
  • LINEで送る
  • このエントリーをはてなブックマークに追加
2015/11/11 14:00

 IoTやWeb、ソーシャルなど、いまや企業はさまざまなところからデータを集められるようになった。ビッグデータ時代の到来である。しかしながらこれまで企業が導入してきたBIツールでは、過去の分析はできても未来予測のための分析はできなかった。とはいえ、分析ツールを導入するにはそれなりの投資が必要になる。そんなビッグデータ時代のデータプラットフォームとして活用できるのが、マイクロソフトのパブリックプラットフォーム「Microsoft Azure(以下Azure)」である。Azureを活用すればどんなデータ処理・分析が可能になるのか。提供する機能について、日本マイクロソフトでAzureのテクニカルエバンジェリストを務めている佐藤直生氏が紹介した。

目次
日本マイクロソフト株式会社 テクニカルエバンジェリスト 佐藤直生氏
日本マイクロソフト株式会社 テクニカルエバンジェリスト 佐藤直生氏

 マイクロソフトがMicrosoft Azureの商用サービスを始めて5年半が経過した。当初はシンプルなPaaSの機能からスタートしたAzureだが、3年前からIaaSの機能も追加し、近年はデータ分析など用途に特化したPaaSの機能を拡充している。新機能の拡充スピードは、Azureのエバンジェリストである佐藤氏も「Azureは毎週、新機能が出ており、中の人である私でさえも付いていくのは大変」だと言う。

 その背景には、ビッグデータ時代の到来がある。「いまや企業はWeb、ソーシャル、IoTなど、さまざまなところから大規模なデータを集め、蓄積できるようになった。特にビッグデータ分析で求められるのは、過去何が起こったかではなくて、今何が起こっているのか、さらに一歩進んで、今後何が起こるのか予測することだ」と佐藤氏。

 そこで注目を集めているのが、ラムダアーキテクチャである。ラムダアーキテクチャとは従来までの抽出、加工処理を施したデータを分析データストアに格納して分析をするというバッチ系の処理と、ホットなデータをホットストアに蓄積し、ほぼリアルタイムに分析するというリアルタイム系の処理を組み合わせる仕組みである。「Azure自体もラムダアーキテクチャにマッピングされる機能をすべて持っている」と佐藤氏は力強く語る。

ラムダアーキテクチャを実現する「Cortana Analytics Suite」

 それがAzureのサービスセット「Cortana Analytics Suite」だ。データの収集から格納、機械学習と分析はもちろん、ダッシュボードや可視化の機能までを提供している。「Cortana Analytics Suite」が面白いのは、このようなAzureが提供しているサービスに加え、Windows 10のパーソナルデジタルアシスタントサービスCortana、音声認識や顔認識、さらには例えばECサイトの顧客バナー分析や売り上げ分析などのよくあるビジネスシナリオまでも包含していることだ。

 同サービスセットはデータの持つ価値を最大化するさまざまな分析プラットフォームを提供しているが、佐藤氏が最初に取り上げたのはAzure SQL Data Warehouse。

 これはマイクソフトのSQL Server ApplianceファミリーであるAnalytics Platform Systemという、DWH(データウェアハウス)に最適化されたアプライアンスをAzureのサービスとして提供したもの。つまりエンタープライズクラスのSQL型データベース機能を持つ、初めてのエラスティックなクラウドDWHだ。ペタバイトスケールのストレージで、無制限にスケールアウトできる。しかもその操作も簡単。SQL Serverと同等の使い勝手を有しており、SQL Serverと連携できるツールであれば、何でも使える。クラウドサービスなので必要とするコンピュート資源に対してのみの支払いのみ。クエリの性能によって支払う料金も変わる。9月29日にパブリックプレビューを開始した。「Azureにサブスクリプションを登録してくれれば触ることができる」(佐藤氏)

 次に佐藤氏が紹介したのは、「Azure Data Lake」。これは分析のためのフルマネジードサービスで、「Data Lake Store」「Data Lake Analytics」「HDInsight」の3つの機能で構成される。

 「Data Lake Store」はHDFS(Hadoop Distributed File System)をサービスとして使えるというもの。ネイティブHDFSを実装しており、HDInsightというAzure上のサービスに加え、HortonworksやClouderaというサービスと統合。「SparkやStorm、Sqoop、RなどすべてのHDFS準拠プロジェクトと親和性がある」と佐藤氏。もちろんサイズは無制限なので、分析したいデータをどんどん貯められる。同一リージョン内に3つのコピーを自動的に作成するので、データの堅牢性も高い。サービスなのでインストールやチューニングは不要だ。「同機能も9月29日に発表されたばかり」と佐藤氏は説明を続ける。

 「Azure Data Lake Analytics」はHDFS上のファイルをクエリする分散型の分析サービス。同サービスはApache YARNの上に構築されており、U-SQLというマイクロソフト独自の宣言型のクエリ言語を使用する。同言語の型システムはC#なので、C#やJavaの使い手なら容易に扱える。同技術は「Cosmos」というコードネームで、マイクロソフト社内でずっと使われてきた技術で、それをHadoop上に移植したもの。年内にはプレビューが登場する予定だ。

 「Azure HDInsight」はHadoop、Spark、Stormをフルマネージドで提供するサービス。OSはWindows版とLinux版の2種類を用意。HadoopはLinux向けに作られているが、Windows版についてはHortonworksと協業し、Windows環境への移植と最適化を実現した。HDInsightには、Hadoop管理のさまざまな機能がすべて入っているという。オプションとして、Hadoopのソースを使うのではなく、IaaSのVMの上にHadoopのクラスター環境を展開することもできる。CDH、HDPはマーケットプレイスに登場しており、CDHに関してはワンクリックで環境を作ることができると言う。またHDInsight Tools for Visual Studioという機能を使えば、Visual StudioからHiveのテーブル作成やジョブ投入もできる。

 HDInsightはスケーラブルな分散CEP基盤「Apache Storm」にも対応しており、Storm専用のクラスターを簡単に作成できる。Stormによるデータ処理ではメッセージングシステムが必要だったが、Azureのサービスでは「Azure Event Hubs」がその役割を担い、Storm on HDInsightにデータを流すことができる。もちろん可視化するサービス「Power BI」が用意されているため、リアルタイムのデータの可視化が可能になるというわけだ。

数百万デバイスからのストリームデータをAzure Event Hubsで処理

数百万デバイスからのストリームデータをAzure Event Hubsで処理


  • ブックマーク
  • LINEで送る
  • このエントリーをはてなブックマークに追加

著者プロフィール

  • CodeZine編集部(コードジンヘンシュウブ)

    CodeZineは、株式会社翔泳社が運営するソフトウェア開発者向けのWebメディアです。「デベロッパーの成長と課題解決に貢献するメディア」をコンセプトに、現場で役立つ最新情報を日々お届けします。

バックナンバー

連載:【デブサミ秋2015】セッションレポート
All contents copyright © 2005-2020 Shoeisha Co., Ltd. All rights reserved. ver.1.5