CodeZineニュース

Fastly、パフォーマンス向上とコスト削減を実現する「Fastly AI Accelerator」を発表

2024/06/17 14:00

ポスト

ポスト

　米Fastlyは、大規模言語モデル（LLM）アプリの類似したプロンプトの使用を効率化させることで、パフォーマンス向上とコスト削減する、同社初のAIソリューション「Fastly AI Accelerator」を、6月13日（現地時間）に発表した。

　Fastly AI Acceleratorは、インテリジェントなセマンティックキャッシュによって、API呼び出しとコストを削減するよう設計されている。同ソリューションはFastlyのエッジクラウドプラットフォーム上に構築されており、キャッシュテクノロジを活用した専用のAPIゲートウェイを使用し、LLMを使用するアプリのパフォーマンスを大幅に向上させる。まずはChatGPTに対応し、今後は他のモデルへとサポートを拡大していく。

　一般的なAIアプリは、毎日数十万件のAPI呼び出しや質問を処理できるものの、ユーザーからの質問は類似しているものも少なくないため、以前に尋ねられた質問が再度尋ねられる可能性がある。セマンティックキャッシュがない場合、LLMを呼び出すたびにAIプロバイダに戻って情報を取得する必要があり、コストとレイテンシの増加につながってしまう。

　一方、Fastly AI Acceleratorのセマンティックキャッシュでは、AIプロバイダに戻る代わりにFastlyのエッジプラットフォームからキャッシュされた応答を提供するので、コストを削減しつつパフォーマンスを向上させられる。

　開発者は、新たなAPIエンドポイントを使用する際にアプリを更新し、コードを1行変更するだけでFastly AI Acceleratorを使用可能となる。Fastly AI Acceleratorは、OpenAI互換APIのセマンティックキャッシュを透過的に実装し、リクエストとクエリのコンテキストを理解し、2つ以上のリクエストが類似している場合は同様の応答を送信する。

関連リンク: ブログポスト（英語）

Fastly（英語）

「Fastly AI Accelerator」（英語）

この記事は参考になりましたか？

印刷用を表示

ポスト

この記事の著者: CodeZine編集部（コードジンヘンシュウブ）

CodeZineは、株式会社翔泳社が運営するソフトウェア開発者向けのWebメディアです。「デベロッパーの成長と課題解決に貢献するメディア」をコンセプトに、現場で役立つ最新情報を日々お届けします。

※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です

この著者の最近の執筆記事