Langfuseとは? 活用のポイントをデモで紹介
Langfuseは、グローバルの多くの企業や開発者から圧倒的な⽀持をもつ LLM Engineering Platformで、オープンソースでも展開されている。
LangfuseはLLMopsに必要なすべての機能を、エンタープライズ水準でカバーしている。生成AIアプリケーション利用状況の統計を取得してダッシュボードで可視化。プロンプトの管理や評価は自動で行うだけでなく、人間の手で実施するパターンにも対応している。

また、データセットを通してLLMアプリケーションを継続的に改善する機能も備えており、例えば、アプリケーションがふさわしくない回答を返したとき、問題の部分を特定して改善につなげられる。やみくもにプロンプトやモデルを変更する必要はない。
さらに、「LLM As A Judge」の機能によってLLMのアウトプットを自動で評価。そこで見つかった問題に対して人間が二次評価を行うというサイクルを備えている。
嘉門氏は、Langfuseの実際の画面を用いてデモを紹介した。
あるチャットボットに質問して、少し待つと回答が出てくる。その処理をLangfuseのダッシュボードに確認しにいくと、処理にかかった時間やトレース数、コストなどが表示されている。

生成AIのアプリケーションではよくRAGという仕組みが使われるが、この仕組みによって類似性(シミュラリティ)の評価が高いデータをもとに結果を返している。Langfuseは「好ましくない結果が返ってきたときにどんなソースから取ってきて回答を作っているのかたどることができ、シミュラリティの値などを確認しながら、RAGの品質改善を実現できる」という。
また、Langfuseは「プロンプト(モデル)の管理」もできるのが魅力だ。本来アプリケーション側で手で書く必要のあるプロンプトを、Langfuse側で管理しておき、アプリケーション側からフェッチする形で利用することが可能なのだ。
「Langfuseを使うことで、どのプロンプトが一番効果的だったのかを評価することができる」と嘉門氏。モデルごとの差分や、定量的なメトリクスによる評価、ユーザーのフィードバックから評価を一目で参照することができる。
さらにLangfuseにはA/Bテストなどを含むテスト機能も搭載。
「ユーザーからのフィードバックを受けて改善し、それをテストしリリースするといった一連の流れをLangfuseというOSSで完結できます」