米Amazon Web Servicesは、Amazon Bedrockにおいて生成AIアプリケーションのコストとレイテンシ削減に役立つ、インテリジェントプロンプトルーティングと、プロンプトキャッシュのサポート(どちらもプレビュー)を、12月4日(現地時間)に導入している。
Amazon Bedrockにおけるインテリジェントプロンプトルーティングの導入によって、モデルを呼び出す際に同じモデルファミリの基盤モデル(FM)を組み合わせることで、品質とコストを最適化できるようになった。
具体的には、米AnthropicのClaudeモデルファミリを使用した場合、Amazon Bedrockはプロンプトの複雑さに応じて、Claude 3.5 SonnetとClaude 3 Haikuの間でリクエストをインテリジェントにルーティングすることが可能になる。また、Meta Llama 3.1 70Bと8Bの間でリクエストをルーティングすることもできる。
プロンプトルータは、応答の品質とコストを最適化しつつ、それぞれのリクエストに対してどのモデルが最高のパフォーマンスを提供するかを予測する。これはカスタマーサービスアシスタントなどのアプリケーションで特に役立ち、単純なクエリはより小さくより高速で、よりコスト効率の高いモデルで処理し、複雑なクエリはより高性能なモデルにルーティングできる。インテリジェントプロンプトルーティングは、精度を損なうことなく最大30%のコスト削減を可能にしている。
インテリジェントプロンプトルーティングは、米国東部(バージニア北部)および米国西部(オレゴン)のAWSリージョンにてプレビュー版として提供される。プレビュー期間中はデフォルトのプロンプトルータを使用でき、プロンプトルータの使用には追加料金は発生しないものの、選択したモデルの料金が必要となる。
Amazon Bedrockにおけるプロンプトキャッシュのサポートでは、複数のモデル呼び出しにわたって頻繁に使用されるコンテキストを、プロンプトにキャッシュすることが可能になった。ユーザーが同じドキュメントについて複数の質問をするドキュメントQ&Aシステムや、コードファイルに関するコンテキストを維持する必要のあるコーディングアシスタントといった、同じコンテキストを繰り返し使用するアプリケーションに役立つ。
キャッシュされたコンテキストは、アクセスごとに最大5分間使用でき、サポートされているモデルのコストを最大90%、レイテンシを最大85%削減可能にする。
プロンプトキャッシュのサポートは、米国西部(オレゴン)のAWSリージョンにて、AnthropicのClaude 3.5 Sonnet V2およびClaude 3.5 Haikuで利用できる。米国東部(バージニア北部)では、Amazon Nova Micro、Amazon Nova Lite、およびAmazon Nova Proのプロンプトキャッシュも利用できる。なお、利用にあたってはリクエストの送信が必要となる。
プロンプトキャッシュを使用すると、キャッシュ読み取りは、キャッシュされていない入力トークンと比較して90%割引される。キャッシュストレージに追加のインフラストラクチャ料金はかからない。Anthropicモデルを使用する場合、キャッシュに書き込まれたトークンに対して追加料金が発生する。一方、Amazon Novaモデルではキャッシュ書き込みに追加料金はかからない。
この記事は参考になりましたか?
- この記事の著者
-
CodeZine編集部(コードジンヘンシュウブ)
CodeZineは、株式会社翔泳社が運営するソフトウェア開発者向けのWebメディアです。「デベロッパーの成長と課題解決に貢献するメディア」をコンセプトに、現場で役立つ最新情報を日々お届けします。
※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です