東京リージョンで利用可能に! Amazon SageMaker Canvas
ここからは、「Amazon SageMaker Canvas」「Amazon SageMaker Data Wrangler」「Amazon SageMaker Autopilot」の最近の注目アップデートを紹介します。
Amazon SageMaker Canvasのアップデート情報として最も嬉しかったのは、やはり東京リージョンで利用可能になったことだと思います。
ビジネスシーンで利用する際は、機密情報の管理など東京リージョンのみに限定したユースケースがまだまだ多く、「使ってみたいけど、東京リージョンはまだ対応していないから使えない……」と残念に思うケースがよくあります。東京リージョンで利用可能になったことで、ビジネスシーンでの利用も増えて多くの人に恩恵があったのではと思っています。
また、以下のように機能自体のアップデート情報もたくさんあります。
- Amazon SageMaker Canvas に新しいデータ準備機能と使いやすさの更新を追加
- Amazon SageMaker Canvas が機能を拡張し、機械学習向けのデータの準備と分析が向上
- Amazon SageMaker Canvas で高度なビジュアライゼーションを備えたデータ探索および分析用の追加機能を発表
サービス発表された当初は、「データ加工・分析のパターンも少ないし使えるユースケースが限られているな」「簡易的なモデルしか構築できなさそうだし、データサイエンティストへのインプットとして利用するのがいいかな」と思っていましたが、データセットへの柔軟性が増し、さまざまなユースケースに対応した高精度なモデルを構築することをできるようになっています。
例えば、上記のアップデートにより、欠損値や外れ値の処理といったよくあるデータ処理から、サンプリングといった細かなデータ処理まで多くのパターンに対応できるようになっています。また、それらの処理された結果の可視化機能(散布図・棒グラフ・箱ひげ図など)も提供してくれるようになり、データをより適切にかつ迅速に理解できるようになっています。
より多くの人にとって、高度な機械学習モデルを1行もコードを書かずに構築できるサービスとなっていることが分かります。
データや品質のレポート作成が容易に! Amazon SageMaker Data Wrangler
Amazon SageMaker Data Wranglerは昨年のre:Invent 2021以降で10を超えるアップデート情報が発表されており、最もアップデートの多かった機能です。
「データ加工・分析処理のバリエーション」「加工後データの後続処理への連携」の大きく2点が改善された印象です。
まず「データ加工・分析処理のバリエーション」の注目アップデートは以下です。
一般的に、品質の高い機械学習モデルを構築するために、機械学習モデルを構築する前に利用するデータの統計値(例:件数、平均値、欠損率など)や品質(例:偏り、型の誤りなど)の確認を実施をします。これまでは、これらのデータをインポート、処理、および分析して、最終的にエクスポートするために大量のコードを記述する必要があり、非常に労力がかかっていました。このアップデートにより、データの統計値や品質を自動的に検証し、レポートを自動作成できるようになりました。
データからビジネスドメインに関する知識を効率的かつ迅速に得ることができるようになったのはもちろんのこと、報告資料としてもそのまま利用できるようなレポートを自動作成してくれるのは非常に嬉しいことだと思います。
続いて「加工後データの後続処理への連携」の注目アップデートは以下です。
AutoML機能である SageMaker Autopilot(この後の項目でもご紹介します)に加工したデータを直接インプットできるようになりました。以前は SageMaker Data Wranglerを使用して機械学習用のデータをS3に出力し、その後、出力されたデータをSageMaker Autopilotのインプットに指定して機械学習モデルをトレーニングする必要があり、連携がスムーズではありませんでした。
このアップデートにより、数ステップの操作のみで、SageMaker Data Wranglerで準備したデータを SageMaker Autopilotに簡単にエクスポートして、モデルトレーニングできるようになりました。機械学習の開発では、データ加工・特徴量設計からモデルのチューニングの試行錯誤を非常に多く伴うため、試行錯誤の効率性が非常に大事になります。このアップデートに試行錯誤回数を大幅に増やすことができるようになるため、普段から機械学習に携わっている方にとっても嬉しいアップデートなのではと思います。