Amazon SageMaker Data Wranglerは、機械学習用のフルマネージド統合開発環境(IDE)であるAmazon SageMaker Studioに統合されている。
従来、機械学習に費やされる時間の最大80%を、データの準備が占めていたが、Amazon SageMaker Data Wranglerを使用することで数クリックにてデータソースに接続し、データを探索して視覚化し、組み込みの変換と独自の変換を適用し、結果のコードを自動生成されたスクリプトにエクスポートして、管理されたインフラストラクチャでの実行が可能になる。
データソースは、Amazon S3、Amazon Athena、Amazon RedShift、AWS Lake Formationに対応しており、Amazon SageMaker Feature Storeからインポートすることもできる。データは、概要、ヒストグラム、散布図の表示が可能で、データの検索と置換、列の分割/名前変更/削除、数値のスケーリング、カテゴリ値のエンコードなど、300以上の変換機能を用意する。
処理パイプラインに変換ステップを追加することで、処理の概要をグラフィカルに表示でき、データのサブセットを選択してモデルをトレーニングし、予測される結果にもっとも貢献している機能を特定可能な「クイックモデル」機能も備えている。
作成した処理パイプラインはPythonスクリプトにエクスポートでき、機械学習プロジェクトへ組み込めるほか、Amazon SageMaker処理ジョブ/Amazon SageMakerパイプランワークフローを実行するノートブックや、処理された機能をAmazon SageMaker Feature Storeにプッシュするノートブックへエクスポートすることもできる。