はじめに
筆者が所属するNTTデータでは、NTTデータで利用実績の多いAWSサービストップ10は? 最新アップデート情報も紹介!でもご紹介した通り、数千のプロジェクトにおいてAWSの数々のサービスをフル活用して、お客様ビジネスに貢献しています。
近年、データアナリティクス領域においても多くの取り組みをしており、AWS Summitでも2年連続してデータアナリティクスの事例・ソリューションの紹介をさせていただきました。
私は機械学習のプロジェクトに携わることが多く、普段からAWSの代表的な機械学習サービスである「Amazon SageMaker」を活用して、機械学習開発を技術リードしています。
この記事では、Amazon SageMakerの魅力的な最新アップデート情報を分かりやすくご紹介したいと思います。AWSを活用して機械学習に取り組みたい方々にとって参考になることがたくさんあると考えています。
Amazon SageMakerとは
Amazon SageMakerは、AWSが提供しているフルマネージドな機械学習サービスです。SageMakerを使用すると、機械学習モデルをすばやく簡単に構築してトレーニングし、本番環境でホストされている環境に直接デプロイできます。
機械学習開発におけるサイクル(データ収集・加工、モデル構築・評価・デプロイ)のすべてに対して、ツール、インフラストラクチャ、ワークフローを提供してくれており、さまざまなユースケースで活用することができます。
Amazon SageMakerで注目の機能
昨年のre:Invent 2021以降のSageMakerに関する機能アップデート情報を確認したところ、以下の機能のアップデート頻度が特に多く、サービスとして力を入れている領域だと思いました。
Amazon SageMaker Canvas は、機械学習の専門知識を必要とせず、かつ1行のコードも書かずに機械学習モデルを構築し、推論結果を得ることができるサービスです。データを用意するのみで、データの前処理、モデルのチューニング、モデルの解釈(精度や何のデータ項目が予測結果に寄与したか)まで数操作で実現できます。
Amazon SageMaker Data Wranglerは、機械学習用のデータを加工・分析するのにかかる時間を数週間から数分に短縮してくれるサービスです。データ選択、クレンジング、探索、視覚化など、300を超える組み込みのデータ処理が含まれているため、コードを記述しなくても、特徴量をすばやく正規化、変換、および結合できます。
Amazon SageMaker Autopilotは、表形式のデータセットを提供し、予測対象の列を選択するだけで、データ処理・アルゴリズム・パラメータチューニングの組み合わせを数十以上も自動で試行錯誤し、最適なモデルを見つけてくれます。その後、ワンクリックでモデルを本番に直接デプロイするか、開発者自身でカスタマイズを繰り返して、モデルの品質をさらに向上させることもできます。
これらの機能の特徴として、「機械学習を誰もが実施できるようにする機能」「機械学習開発を自動化・効率化してくれる機能」であることから、より多くの人が簡単に機械学習によるイノベーションに取り組めることを目指したサービスにしようとしていることが推察できます。
各機能の使い方のイメージは以下です。
- ビジネスアナリストなど機械学習の深い専門知識を持っていない方は、Amazon SageMaker Canvasでノーコードで手軽に機械学習モデルを構築可能です。
- 機械学習開発者は、Amazon SageMaker Data Wrangler、Amazon SageMaker Autopilotを利用して、機械学習開発の大部分を自動化することで生産性向上を実現できます。
- Amazon SageMaker Canvasで構築したモデルをAmazon SageMaker Data Wrangler、Amazon SageMaker Autopilotにも簡単に連携できます。