米Databricksは、分散処理フレームワーク「Apache Spark 2.0」のテクニカルプレビュー版を、5月11日(現地時間)に、同社が運営するクラウドプラットフォーム「Databricks」のユーザーに公開した。「Apache Spark 2.0」正式版の公開はまだ先だが、今回のテクニカルプレビュー版によって、いち早く新機能を試せる。
「Apache Spark 2.0」では、標準的なSQLのサポートをはじめ、Scala/Javaにおけるデータフレームとデータセットの統合、SQLコンテクストとHiveコンテクストの後継となるSparkSessionの導入、よりシンプルで強力なアキュムレータAPIやデータフレームベースの機械学習APIの採用など、使いやすさを重視する。
パフォーマンス面でも、フィルタや加算、ハッシュ統合、ソートなど、あらゆる面で「Spark 1.6」を上回っている。
さらに、あらゆる処理をリアルタイムで行えるようにする、という構想の第一歩となるStructured Streaming APIを、DataFrame/Dataset APIの拡張機能として収録しており、Sparkユーザーがこれまで培ってきたbatch APIに関する知識を、リアルタイムベースの処理に活用する手段を提示する。
【関連リンク】
・Databricks(英語)
・Apache Spark(英語)
この記事は参考になりましたか?
- この記事の著者
-
CodeZine編集部(コードジンヘンシュウブ)
CodeZineは、株式会社翔泳社が運営するソフトウェア開発者向けのWebメディアです。「デベロッパーの成長と課題解決に貢献するメディア」をコンセプトに、現場で役立つ最新情報を日々お届けします。
※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です