Shoeisha Technology Media

CodeZine(コードジン)

特集ページ一覧

Databricks、分散処理フレームワーク「Spark 2.0」のテクニカルプレビュー版を限定公開

  • ブックマーク
  • LINEで送る
  • このエントリーをはてなブックマークに追加
2016/05/12 13:50

 米Databricksは、分散処理フレームワーク「Apache Spark 2.0」のテクニカルプレビュー版を、5月11日(現地時間)に、同社が運営するクラウドプラットフォーム「Databricks」のユーザーに公開した。「Apache Spark 2.0」正式版の公開はまだ先だが、今回のテクニカルプレビュー版によって、いち早く新機能を試せる。

 「Apache Spark 2.0」では、標準的なSQLのサポートをはじめ、Scala/Javaにおけるデータフレームとデータセットの統合、SQLコンテクストとHiveコンテクストの後継となるSparkSessionの導入、よりシンプルで強力なアキュムレータAPIやデータフレームベースの機械学習APIの採用など、使いやすさを重視する。

 パフォーマンス面でも、フィルタや加算、ハッシュ統合、ソートなど、あらゆる面で「Spark 1.6」を上回っている。

 さらに、あらゆる処理をリアルタイムで行えるようにする、という構想の第一歩となるStructured Streaming APIを、DataFrame/Dataset APIの拡張機能として収録しており、Sparkユーザーがこれまで培ってきたbatch APIに関する知識を、リアルタイムベースの処理に活用する手段を提示する。


【関連リンク】
Databricks(英語)
Apache Spark(英語)

  • ブックマーク
  • LINEで送る
  • このエントリーをはてなブックマークに追加
All contents copyright © 2005-2019 Shoeisha Co., Ltd. All rights reserved. ver.1.5