米Amazon Web Servicesは、AWSにおけるデータ統合ワークロードを高速化する、バッチおよびストリーミングジョブのためのAWS Glue Sparkの新バージョン「AWS Glue 3.0」を、8月19日(現地時間)に発表した。
「AWS Glue 3.0」は、AWS GlueとAmazon EMRからの最適化を含んでおり、「Apache Spark 3.1.1」に基づくパフォーマンス最適化Sparkランタイムが導入されている。
「AWS Glue 3.0」ランタイムは、より高速なベクトル化されたリーダとAmazon S3に最適化された出力コミッタを使用して、Amazon S3への読み取りアクセスと書き込みアクセスの両方を最適化する。
また、AWS Glueデータカタログへのアクセスを最適化するパーティションPredicateを使用しており、高度にパーティション化されたデータセットの場合、パーティションインデックスを使用して不要なパーティションを除外することで、実行速度を向上させる。
なお、「AWS Glue 3.0」ランタイムはAWS Lake Formationと完全に統合されており、リソース名を使用したデータベース、テーブル、列、行、セルレベルのアクセス制御や、AWS Lake Formationのタグベースのアクセス制御など、さまざまな粒度での安全なアクセスを実現する。
ほかにも、Sparkアプリケーションの監視、デバッグ、チューニングのユーザーエクスペリエンスを向上させる新機能も備えており、起動時の待ち時間を短縮し、全体的なジョブ完了時間を改善できる。
「AWS Glue 3.0」は、AWS Glueが利用可能なすべてのAWSリージョンで使える。
この記事は参考になりましたか?
- この記事の著者
-
CodeZine編集部(コードジンヘンシュウブ)
CodeZineは、株式会社翔泳社が運営するソフトウェア開発者向けのWebメディアです。「デベロッパーの成長と課題解決に貢献するメディア」をコンセプトに、現場で役立つ最新情報を日々お届けします。
※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です