米Amazon Web Servicesは、Amazon SageMaker Debuggerが機械学習モデルのプロファイリングを実行可能になったことを、12月15日(現地時間)に発表した。
Amazon SageMaker Debuggerは、機械学習トレーニングジョブで生じている複雑な問題を自動的に識別する、Amazon SageMakerの機能の1つであり、減少しない損失や勾配爆発といった問題に対応している。
今回の、機械学習モデルのプロファイリングへの対応によって、トレーニングジョブをプロファイリングして、リソースの使用率とトレーニングスクリプトの機械学習オペレーションとの関連付けを支援し、機械学習の利用において課題であったトレーニングにおけるパフォーマンス問題をより迅速に解決するとともに、高速にトレーニングジョブを反復できるようになる。
現時点では、TensorFlow 2.xとPyTorch 1.xでの利用が可能で、Amazon SageMakerの対応する組み込みフレームワークを使ってトレーニングするだけでプロファイリングが行われ、分散型トレーニングは追加設定なしでサポートされる。
また、Amazon SageMakerの推定器でパラメータを設定することで、CPUとGPU、RAMとGPU RAM、ネットワークI/Oなどのインフラストラクチャメトリクスとモデルメトリクスのコレクションを有効にすることが可能なほか、前処理、トレーニングループ、後処理といった各フェーズにどれくらい時間がかかったかの視覚化や、トレーニングスクリプトにおける各関数のドリルダウン、100ms/200ms/500ms/1s/5s/1minでのメトリクス収集、特定箇所のメトリクスのみのキャプチャなどにも対応している。
なお、トレーニングジョブ実行中のメトリクスは、Amazon SageMaker Studioで視覚化でき、トレーニングジョブと並行してキャプチャされたデータを分析し、グラフを構築して、レポートを生成することで、潜在的な問題に関する洞察を提供するAmazon SageMaker Processingが実行される。
Amazon SageMaker Debuggerの新機能は、Amazon SageMakerが利用可能なすべてのリージョンにて利用でき、組み込みのプロファイリングルールの実行に使用されたコンピューティングに対する料金は発生しない。
この記事は参考になりましたか?
- この記事の著者
-
CodeZine編集部(コードジンヘンシュウブ)
CodeZineは、株式会社翔泳社が運営するソフトウェア開発者向けのWebメディアです。「デベロッパーの成長と課題解決に貢献するメディア」をコンセプトに、現場で役立つ最新情報を日々お届けします。
※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です