データの品質チェックが容易に「AWS Glue Data Quality」
今回のre:Inventでは、AWS Glueのアップデートがたくさんありました。その中でも魅力的だと思ったのはAWS GlueからAWS Glue Data Qualityが発表されたことです。
データ分析・機械学習では、データがすべてであり、クリーンなデータをいつでも利用できるようにしておく必要があるため、データの品質を保つことは非常に重要となります。
AWSでは、データの品質を保つためにAWS Glueを利用して、自前で品質チェック・データ変換をするETLジョブを実装することが多いと思いますが、これには非常に負荷と時間がかかり苦労する方が多かったのではないでしょうか。
AWS Glue Data Qualityは、データの品質を自動的に測定しモニタリングする新機能となっており、上記の悩みを解決してくれます。
AWS Glue Data Qualityは、データカタログテーブルやETLジョブの中間データに対して自動でデータを分析して、推奨される品質チェックルールを作成してチェックまで実行してくれます。
品質チェックルールは変更や、新しいルールを追加するなど利用者のユースケースに応じてカスタマイズすることも可能です。
マネジメントコンソールから操作可能で、データ品質を保つことにかかる負荷と時間を劇的に軽減してくれます。
プレビュー版となっているので、GA(一般提供)が待ち遠しい機能です。