
調査は、Taneja Groups主導の下、 ビッグデータに関与する世界各国の技術者および管理職約7,000名を対象に今年10月に実施。その調査研究結果「Apache Spark Market Research Study」によれば、当初予想していたバッチ処理やデータエンジニアリング、ETLワークロード以外でもSparkの利用が進んでいることが明らかになった。これについてClouderaでは、将来のクラウドへの導入をにらんだものとだろうと述べている。
その他、以下のような結果が得られたとしている。
- 54%の回答者が、既にSparkを積極的に使用中。Sparkを使用中の64%が非常に有益であると回答し、今後12ヶ月間でさらに利用を拡大したいと回答
- 新規のSpark導入も進んでおり、ビッグデータプロジェクトの経験がある10人に4人が、近々にSparkの導入を計画していると回答
- Sparkの利用分野の上位は、バッチ処理・ETL(55%)、ストリーム処理(44%)、データサイエンス(33%)、機械学習(33%)。特にデータサイエンスでは、同分野に関わっている回答者の71%がSparkを利用している
- 導入における壁や課題が残っているものの、それらの多くはオンラインや教室での受講といった様々なトレーニングを利用し、ビッグデータとのスキルギャップをどう埋めるかの問題である
なお、Sparkを利用している回答者のうち、Cloudera製のSparkを利用している割合が57%。次いでHortonworks製が26%、Apacheプロジェクト製が22%、Databricks製が7%だったという。
また、Sparkの利用が拡大するにつれ、Hadoopは順次置き換えられるのではないかという質問に対し、Awadallah氏は「Hadoopはストレージ管理、リソース管理、分散処理エンジンという3つの機能を提供している。Sparkは分散処理エンジンに相当し、その動作基盤となるHadoopはSparkと置き換わるものではない」と回答。データの暗号化や監査といった機能も含め、ClouderaのHadoop製品はSparkをはじめとする各種処理エンジンのプラットフォーム的な存在としてあり続けるようだ。
今回の調査研究結果「Apache Spark Market Research Study」はこちらからダウンロードできる。
【関連リンク】
・「Apache Sparkの市場調査の結果、ユーザー数に加え、探索的データサイエンスや機械学習などの新たなワークロードにおける利用拡大が明らかに」(プレスリリース)
・調査研究結果「Apache Spark Market Research Study」
・Cloudera