アマゾン ウェブ サービス ジャパンは、Amazon SageMakerが低レイテンシーの推論のためにリアルタイムエンドポイントに複数のコンテナをデプロイし、リクエストごとに呼び出す機能をサポートしたことを、3月16日に発表した。
今回発表された機能により、単一エンドポイントで最大5つの異なる機械学習(ML)モデルとフレームワークを実行し、最大80%のコストを節約できる。
エンドポイントにデプロイする必要があるトレーニング済みモデルとともにコンテナのリストを指定し、モデルが個別にアクセスされるようにする「直接」推論実行モードを選択することで、使用することが可能。
特定のモデルに対して推論を行う場合は、エンドポイントを呼び出し、リクエストヘッダーでコンテナの名前を指定する。条件キーを指定することで、直接呼び出しモードで各コンテナへの推論リクエストを保護することができる。また、Amazon CloudWatchでコンテナごとのメトリクスを取得することもできる。
推論を行うときにリクエストを事前/事後処理する場合や、MLモデルのセットを順次実行する場合は、推論ごとにマルチコンテナエンドポイントでコンテナを順番に実行することもできる。なお、この機能は、デフォルトの動作として既にサポートされており、推論実行モードを「シリアル」に設定することで有効になる。
- 関連リンク
この記事は参考になりましたか?
- この記事の著者
-
CodeZine編集部(コードジンヘンシュウブ)
CodeZineは、株式会社翔泳社が運営するソフトウェア開発者向けのWebメディアです。「デベロッパーの成長と課題解決に貢献するメディア」をコンセプトに、現場で役立つ最新情報を日々お届けします。
※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です