Amazon AthenaがApache Sparkのサポートを開始
続いて、Amazon AthenaがApache Sparkのサポートを開始 したというアップデート情報を紹介します。こちらは、データ・機械学習担当バイスプレジデントのSwami Sivasubramanianによるキーノートセッションでも取り上げられていた注目アップデートです。
Amazon Athenaは、Amazon S3のデータに対して標準SQLを使用したインタラクティブな分析サービスでしたが、Apache Sparkを用いたデータ分析にも対応しました。
AWSがAmazon RedshiftのApache Sparkとの統合を発表というアップデートとも合わせて、AWSでは、Athena、EMR、Glue、SageMaker、Redshiftと幅広いユースケースでSparkを利用可能になったことになります。
インタラクティブにApache Sparkを実行するためには、インフラストラクチャのプロビジョニングや性能チューニング、インターフェースとなるJupyterノートブックの用意など非常に多くの作業・コストが必要になります。
これまでは、EMRでクラスタを起動して、EMRやSageMakerが提供するノートブックと接続設定をしたり、Glueのインタラクティブセッションを利用してノートブックと接続設定をしたりと、事前設定やその後のインフラの管理に手間と時間がかかっていたかと思います。
本アップデートにより、Athenaのコンソール画面でJupyterノートブックのインターフェースが提供され、数ステップでインタラクティブにSparkアプリケーションを実行できるようになりました。インフラの管理も不要で、なんとSparkを1秒以内に起動することが可能となっており、非常に簡単かつ迅速にSparkによる、データ分析を実施できるようになっています。
複数のJupyterノートブックを作成することができるようになっており、同時に複数のSparkアプリケーションを実行することも可能になっており、生産性の向上が期待できます。