開発者のための情報メディア

ニュース

新規
会員登録

CodeZineニュース

「Apache Spark 3.1」リリース。Spark-on-Kubernetesが本番環境に対応

CodeZine編集部[著]

2021/04/02 08:00

ポスト

ポスト

　Apache Foundationは、オープンソースのクラスタコンピューティングフレームワークの最新版となる「Apache Spark 3.1」の一般提供を、3月に開始している。

　「Apache Spark 3.1」では、70超のバグ修正とパフォーマンス改善によってSpark-on-Kubernetesが一般提供レベルに達し、本番環境で使えるようになった。

　おもな機能追加および改善としては、ノードシャットダウン処理が改善され、スポットノードを使用する際の堅牢性とパフォーマンスが向上するとともに、グレースフルエグゼキューターが廃止される。また、マウント可能なボリュームオプションとして、NFSおよび動的に生成されたPersistentVolumeClaims（PVC）が追加されている。

　そのほか、PySparkのドキュメントがよりPython的でユーザーフレンドリーに書き直されるとともに、タイプヒントにコード補完と静的エラー検出が搭載された。さらに、Spark History Serverが実行した構造化ストリーミングクエリに関する統計を表示するようになったほか、動的割り当てが有効になっているYARNおよびKubernetesデプロイメントでは、ステージレベルのスケジューリングに対応し、ステージの粒度で要求するエグゼキュータリソースの量とタイプをコードで制御できるようになっている。

　また、シャッフルハッシュ結合のパフォーマンスを改善し、部分式除去と触媒オプティマイザに新たなルールが追加された。PySparkでは、メモリ内の列形式のApache Arrowバージョン2.0.0がバンドルされ、SparkとPandasのデータフレーム間でデータを変換するアプリの高速化が実現している。

関連リンク: ブログポスト（英語）

「Apache Spark」（英語）

この記事は参考になりましたか？

印刷用を表示

ポスト

この記事の著者: CodeZine編集部（コードジンヘンシュウブ）

CodeZineは、株式会社翔泳社が運営する開発者のための情報メディアです。日々の開発に取り組むエンジニアやテクノロジーを学びたい方に向けて、プログラミングやAI活用、開発ツール、エンジニアの学びとキャリアに関する記事をお届けしています。

※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です

この著者の最近の執筆記事

この記事は参考になりましたか？

この記事をシェア

ポスト

イベント

CodeZine編集部では、現場で活躍するデベロッパーをスターにするためのカンファレンス「Developers Summit」や、エンジニアの生きざまをブーストするためのイベント「Developers Boost」など、さまざまなカンファレンスを企画・運営しています。

新規会員登録無料のご案内

・全ての過去記事が閲覧できます
・会員限定メルマガを受信できます

メールバックナンバー

新規会員登録無料