Developers Summit 2025 Summer セッションレポート（AD）

生成AIサービスの「運用」ってどうしてる？「Langfuse」国内パートナーが解説するLLMOps

【17-A-8】生成AIの開発・運用の最前線、Langfuseで廻すLLMOps

2025/09/26 12:00

ポスト

Langfuseとは？活用のポイントをデモで紹介

　Langfuseは、グローバルの多くの企業や開発者から圧倒的な⽀持をもつ LLM Engineering Platformで、オープンソースでも展開されている。

　LangfuseはLLMopsに必要なすべての機能を、エンタープライズ水準でカバーしている。生成AIアプリケーション利用状況の統計を取得してダッシュボードで可視化。プロンプトの管理や評価は自動で行うだけでなく、人間の手で実施するパターンにも対応している。

　また、データセットを通してLLMアプリケーションを継続的に改善する機能も備えており、例えば、アプリケーションがふさわしくない回答を返したとき、問題の部分を特定して改善につなげられる。やみくもにプロンプトやモデルを変更する必要はない。

　さらに、「LLM As A Judge」の機能によってLLMのアウトプットを自動で評価。そこで見つかった問題に対して人間が二次評価を行うというサイクルを備えている。

　嘉門氏は、Langfuseの実際の画面を用いてデモを紹介した。

　あるチャットボットに質問して、少し待つと回答が出てくる。その処理をLangfuseのダッシュボードに確認しにいくと、処理にかかった時間やトレース数、コストなどが表示されている。

　生成AIのアプリケーションではよくRAGという仕組みが使われるが、この仕組みによって類似性（シミュラリティ）の評価が高いデータをもとに結果を返している。Langfuseは「好ましくない結果が返ってきたときにどんなソースから取ってきて回答を作っているのかたどることができ、シミュラリティの値などを確認しながら、RAGの品質改善を実現できる」という。

　また、Langfuseは「プロンプト（モデル）の管理」もできるのが魅力だ。本来アプリケーション側で手で書く必要のあるプロンプトを、Langfuse側で管理しておき、アプリケーション側からフェッチする形で利用することが可能なのだ。

　「Langfuseを使うことで、どのプロンプトが一番効果的だったのかを評価することができる」と嘉門氏。モデルごとの差分や、定量的なメトリクスによる評価、ユーザーのフィードバックから評価を一目で参照することができる。

　さらにLangfuseにはA/Bテストなどを含むテスト機能も搭載。

　「ユーザーからのフィードバックを受けて改善し、それをテストしリリースするといった一連の流れをLangfuseというOSSで完結できます」

次のページ
SaaS版とセルフホスト版、何が違う？

関連リンク: ガオ株式会社ホームページ

Langfuse 相談およびデモ依頼お問い合わせ

Langfuse 技術ブログ

この記事は参考になりましたか？

印刷用を表示

ポスト

Developers Summit 2025 Summer セッションレポート連載記事一覧: 必要なのは”エンジニアにとどまらない”プロセス改善──AIが活きる組織とは

Vibe Coding実用化のカギは「手軽さ」と「周りを巻き込む力」──メルカリKuu氏に...

巨大なモノリシックシステムの課題をどうやって解決するのか──WHIの開発生産性向上戦略

もっと読む

この記事の著者: 岡田果子（オカダカコ）

　IT系編集者、ライター。趣味・実用書の編集を経てWebメディアへ。その後キャリアインタビューなどのライティング業務を開始。執筆可能ジャンルは、開発手法・組織、プロダクト作り、教育ICT、その他ビジネス。

※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です

この著者の最近の執筆記事; 山出高士（ヤマデタカシ）

雑誌や広告写真で活動。東京書籍刊「くらべるシリーズ」でも写真を担当。

※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です

この著者の最近の執筆記事; CodeZine編集部（コードジンヘンシュウブ）

CodeZineは、株式会社翔泳社が運営するソフトウェア開発者向けのWebメディアです。「デベロッパーの成長と課題解決に貢献するメディア」をコンセプトに、現場で役立つ最新情報を日々お届けします。

※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です

この著者の最近の執筆記事