CodeZineニュース

Cloudera、Apache Sparkの利用に関する調査結果を発表、既存ユーザーの64％が利用拡大を計画

ニュース

2016/11/18 17:00

ポスト

ポスト

　Apache Hadoop（以下、Hadoop）やApache Spark（以下、Spark）ベースのデータ管理・分析製品を開発するClouderaは11月8日、今年10月に米国の調査会社Taneja Groupsと共に実施したビッグデータに対するSparkの利用状況に関する調査結果を発表。Apache Sparkをすでに使用している人の64％が今後12か月でその適用を大幅に拡大したいと回答したという。11月8日に東京・港区のANAインターコンチネンタルホテル東京で開催されたClouderaのイベント「Cloudera World Tokyo 2016」に合わせて来日したCloudera米国本社のCTO Amr Awadallah氏が明らかにした。

来日したCloudera, Inc. CTO Amr Awadallah氏（左）とCloudera, Inc. Chief Architect Doug Cutting氏（右）。Cutting氏はApache Sparkの父と呼ばれている

　調査は、Taneja Groups主導の下、ビッグデータに関与する世界各国の技術者および管理職約7,000名を対象に今年10月に実施。その調査研究結果「Apache Spark Market Research Study」によれば、当初予想していたバッチ処理やデータエンジニアリング、ETLワークロード以外でもSparkの利用が進んでいることが明らかになった。これについてClouderaでは、将来のクラウドへの導入をにらんだものとだろうと述べている。

　その他、以下のような結果が得られたとしている。

54％の回答者が、既にSparkを積極的に使用中。Sparkを使用中の64％が非常に有益であると回答し、今後12ヶ月間でさらに利用を拡大したいと回答
新規のSpark導入も進んでおり、ビッグデータプロジェクトの経験がある10人に4人が、近々にSparkの導入を計画していると回答
Sparkの利用分野の上位は、バッチ処理・ETL（55％）、ストリーム処理（44％）、データサイエンス（33％）、機械学習（33％）。特にデータサイエンスでは、同分野に関わっている回答者の71％がSparkを利用している
導入における壁や課題が残っているものの、それらの多くはオンラインや教室での受講といった様々なトレーニングを利用し、ビッグデータとのスキルギャップをどう埋めるかの問題である

　なお、Sparkを利用している回答者のうち、Cloudera製のSparkを利用している割合が57％。次いでHortonworks製が26％、Apacheプロジェクト製が22％、Databricks製が7％だったという。

　また、Sparkの利用が拡大するにつれ、Hadoopは順次置き換えられるのではないかという質問に対し、Awadallah氏は「Hadoopはストレージ管理、リソース管理、分散処理エンジンという3つの機能を提供している。Sparkは分散処理エンジンに相当し、その動作基盤となるHadoopはSparkと置き換わるものではない」と回答。データの暗号化や監査といった機能も含め、ClouderaのHadoop製品はSparkをはじめとする各種処理エンジンのプラットフォーム的な存在としてあり続けるようだ。

　今回の調査研究結果「Apache Spark Market Research Study」はこちらからダウンロードできる。

この記事は参考になりましたか？

印刷用を表示

ポスト

この記事の著者: CodeZine編集部（コードジンヘンシュウブ）

CodeZineは、株式会社翔泳社が運営するソフトウェア開発者向けのWebメディアです。「デベロッパーの成長と課題解決に貢献するメディア」をコンセプトに、現場で役立つ最新情報を日々お届けします。

※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です

この著者の最近の執筆記事