Apache Hadoop(以下、Hadoop)やApache Spark(以下、Spark)ベースのデータ管理・分析製品を開発するClouderaは11月8日、今年10月に米国の調査会社Taneja Groupsと共に実施したビッグデータに対するSparkの利用状況に関する調査結果を発表。Apache Sparkをすでに使用している人の64%が今後12か月でその適用を大幅に拡大したいと回答したという。11月8日に東京・港区のANAインターコンチネンタルホテル東京で開催されたClouderaのイベント「Cloudera World Tokyo 2016」に合わせて来日したCloudera米国本社のCTO Amr Awadallah氏が明らかにした。
調査は、Taneja Groups主導の下、 ビッグデータに関与する世界各国の技術者および管理職約7,000名を対象に今年10月に実施。その調査研究結果「Apache Spark Market Research Study」によれば、当初予想していたバッチ処理やデータエンジニアリング、ETLワークロード以外でもSparkの利用が進んでいることが明らかになった。これについてClouderaでは、将来のクラウドへの導入をにらんだものとだろうと述べている。
その他、以下のような結果が得られたとしている。
- 54%の回答者が、既にSparkを積極的に使用中。Sparkを使用中の64%が非常に有益であると回答し、今後12ヶ月間でさらに利用を拡大したいと回答
- 新規のSpark導入も進んでおり、ビッグデータプロジェクトの経験がある10人に4人が、近々にSparkの導入を計画していると回答
- Sparkの利用分野の上位は、バッチ処理・ETL(55%)、ストリーム処理(44%)、データサイエンス(33%)、機械学習(33%)。特にデータサイエンスでは、同分野に関わっている回答者の71%がSparkを利用している
- 導入における壁や課題が残っているものの、それらの多くはオンラインや教室での受講といった様々なトレーニングを利用し、ビッグデータとのスキルギャップをどう埋めるかの問題である
なお、Sparkを利用している回答者のうち、Cloudera製のSparkを利用している割合が57%。次いでHortonworks製が26%、Apacheプロジェクト製が22%、Databricks製が7%だったという。
また、Sparkの利用が拡大するにつれ、Hadoopは順次置き換えられるのではないかという質問に対し、Awadallah氏は「Hadoopはストレージ管理、リソース管理、分散処理エンジンという3つの機能を提供している。Sparkは分散処理エンジンに相当し、その動作基盤となるHadoopはSparkと置き換わるものではない」と回答。データの暗号化や監査といった機能も含め、ClouderaのHadoop製品はSparkをはじめとする各種処理エンジンのプラットフォーム的な存在としてあり続けるようだ。
今回の調査研究結果「Apache Spark Market Research Study」はこちらからダウンロードできる。
【関連リンク】
・「Apache Sparkの市場調査の結果、ユーザー数に加え、探索的データサイエンスや機械学習などの新たなワークロードにおける利用拡大が明らかに」(プレスリリース)
・調査研究結果「Apache Spark Market Research Study」
・Cloudera
この記事は参考になりましたか?
- この記事の著者
-
CodeZine編集部(コードジンヘンシュウブ)
CodeZineは、株式会社翔泳社が運営するソフトウェア開発者向けのWebメディアです。「デベロッパーの成長と課題解決に貢献するメディア」をコンセプトに、現場で役立つ最新情報を日々お届けします。
※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です