米Amazon Web Servicesは、Amazon Bedrockのテスト効率化と生成AIアプリケーションの改善に役立つ、新たな評価機能となる、ナレッジベースにおけるRAG評価とモデル評価におけるLLM-as-a-judge(どちらもプレビュー)を、12月1日(現地時間)に追加している。
Amazon BedrockのナレッジベースにおけるRAG評価では、Amazon Bedrockナレッジベースで自動ナレッジベース評価を実行して、RAG(検索拡張生成)アプリケーションを評価および最適化できるようになった。評価プロセスでは、LLM(大規模言語モデル)を使用して評価のメトリクスを計算する。RAG評価を使用することでさまざまな構成を比較し、ユースケースに必要な結果を得るために設定を調整できる。
モデル評価におけるLLM-as-a-judgeでは、人間による評価と比較してわずかなコストと時間でテストを実行して、人間なみの品質で他のモデルを評価可能になる。
これらの新機能が追加されたことで、AI搭載アプリケーションを高速かつ自動で評価できるようになり、フィードバックループが短縮され、改善が加速されるので、実稼働への移行を容易にする。なお、これらの評価では正確性、有用性、回答拒否や有害性といった責任あるAI基準を含む、複数の品質次元が評価される。
ナレッジベースにおけるRAG評価は、米国東部(バージニア北部)、米国西部(オレゴン)、アジアパシフィック(ムンバイ、シドニー、東京)、カナダ(中部)、欧州(フランクフルト、アイルランド、ロンドン、パリ)、南米(サンパウロ)のAWSリージョンにて、プレビュー提供されている。
モデル評価におけるLLM-as-a-judgeは、米国東部(バージニア北部)、米国西部(オレゴン)、アジアパシフィック(ムンバイ、ソウル、シドニー、東京)、カナダ(中部)、欧州(フランクフルト、アイルランド、ロンドン、パリ、チューリッヒ)、南米(サンパウロ)のAWSリージョンにて、プレビュー提供されている。
ナレッジベースにおけるRAG評価、モデル評価におけるLLM-as-a-judgeで利用可能な評価モデルは、AWSリージョンによって異なる。
料金は、Amazon Bedrockにおけるモデル推論の標準的な料金に準拠しており、評価ジョブ自体には追加料金は発生しない。評価モデルと評価対象モデルは、通常のオンデマンドまたはプロビジョニングされた料金に従って課金される。
この記事は参考になりましたか?
- この記事の著者
-
CodeZine編集部(コードジンヘンシュウブ)
CodeZineは、株式会社翔泳社が運営するソフトウェア開発者向けのWebメディアです。「デベロッパーの成長と課題解決に貢献するメディア」をコンセプトに、現場で役立つ最新情報を日々お届けします。
※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です