米Fastlyは、大規模言語モデル(LLM)アプリの類似したプロンプトの使用を効率化させることで、パフォーマンス向上とコスト削減する、同社初のAIソリューション「Fastly AI Accelerator」を、6月13日(現地時間)に発表した。
Fastly AI Acceleratorは、インテリジェントなセマンティックキャッシュによって、API呼び出しとコストを削減するよう設計されている。同ソリューションはFastlyのエッジクラウドプラットフォーム上に構築されており、キャッシュテクノロジを活用した専用のAPIゲートウェイを使用し、LLMを使用するアプリのパフォーマンスを大幅に向上させる。まずはChatGPTに対応し、今後は他のモデルへとサポートを拡大していく。
一般的なAIアプリは、毎日数十万件のAPI呼び出しや質問を処理できるものの、ユーザーからの質問は類似しているものも少なくないため、以前に尋ねられた質問が再度尋ねられる可能性がある。セマンティックキャッシュがない場合、LLMを呼び出すたびにAIプロバイダに戻って情報を取得する必要があり、コストとレイテンシの増加につながってしまう。
一方、Fastly AI Acceleratorのセマンティックキャッシュでは、AIプロバイダに戻る代わりにFastlyのエッジプラットフォームからキャッシュされた応答を提供するので、コストを削減しつつパフォーマンスを向上させられる。
開発者は、新たなAPIエンドポイントを使用する際にアプリを更新し、コードを1行変更するだけでFastly AI Acceleratorを使用可能となる。Fastly AI Acceleratorは、OpenAI互換APIのセマンティックキャッシュを透過的に実装し、リクエストとクエリのコンテキストを理解し、2つ以上のリクエストが類似している場合は同様の応答を送信する。
この記事は参考になりましたか?
- この記事の著者
-
CodeZine編集部(コードジンヘンシュウブ)
CodeZineは、株式会社翔泳社が運営するソフトウェア開発者向けのWebメディアです。「デベロッパーの成長と課題解決に貢献するメディア」をコンセプトに、現場で役立つ最新情報を日々お届けします。
※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です