Developers Summit 2025 Summer セッションレポート（AD）

生成AIサービスの「運用」ってどうしてる？「Langfuse」国内パートナーが解説するLLMOps

【17-A-8】生成AIの開発・運用の最前線、Langfuseで廻すLLMOps

2025/09/26 12:00

ポスト

　生成AIを組み込んだアプリケーションやシステムの開発が一般的になるにつれ、「LLMOps」の考え方も重要になってきている。LLMOpsとは、大規模言語モデルを一貫して運用・管理する手法だ。「これを行わないと、ユーザーに品質の高いAIサービスを提供できない」とガオの代表取締役嘉門延親氏は言う。嘉門氏は、同社が販売・サポートするLLMOpsツール「Langfuse」によるトレーシングを中心に、現場で活かせるLLMOpsのベストプラクティスを、アプリの実コード例とともに解説した。

ポスト

生成AI開発に欠かせない「LLMOps」

　GAO（ガオ株式会社）は「GenAI Ops」の略で、Google Cloud に特化したSIや組織におけるAI推進を手掛けるクラウドエースを擁する、吉積ホールディングスグループの一員。「Langfuse」というLLMOpsサービスを中心にAIソリューションを展開している。生成AIの導入から、その後の顧客企業のビジネスの成功まで伴走するのが特徴だ。

　LLMOpsとは、生成AIを用いたアプリケーションを一貫して管理する手法である。昨今、大規模言語モデル（LLM）を用いて生成AIを搭載したサービスを開発・提供する企業が増える中、その品質や安全性を担保するために必要な活動として注目されている。

　嘉門氏は、「特に品質・信頼性にとってLLMOpsは重要。LLMOpsがないと、生成AIのアプリケーションを導入したユーザーに一定のクオリティを提供できているのかわからない」と指摘する。

　たとえユーザーから品質劣化の指摘があっても、開発運用のプロセスが適切に管理されていなければ原因を特定することができない。これをLLMOpsの手法を使って管理することで、ユーザーにとって高い品質を維持できているかを常に把握できるようになる。問題が発生したら検知して、原因を特定し、改善していくというプロセスが回るようになるわけだ。

　また、生成AIアプリケーションの中で使われているプロンプトやモデルを切り替えようとすると、再度CI/CDパイプラインを回す必要が出てくることが多い。LLMOpsを導入することで、プログラムコードを触らずにプロンプトそのものを変更できるようになる。

　その他にも、LLMOpsを取り入れることで、LLMの利用料を分析してコストを管理したり、有事の際に原因追跡できるようにガバナンス・リスクを管理したりといった運用が可能になる。

　LLMOpsを実践するには、アプリケーションの状況を可視化し、それがフィードバックされて、改善されて、また新しいリリースにつながる、というサイクルを回す必要がある。

　しかし嘉門氏は、生成AIアプリケーションの開発における課題として「開発・提供側がアプリを改善しようとしても、実際の利用状況を把握するのは難しい。アンケートをとっても、ユーザーは回答のモチベーションがなかったり、回答してもあいまいな情報しか取得できなかったりする」と指摘する。

　そこで役立つのが「Langfuse」などのLLMOps用のプラットフォームだ。Langfuseはユーザーからのインプットと生成AIのモデルからのアウトプットをまとめてトレースし、蓄積してくれる。LLMOpsの肝となるこの処理を通じて、内部処理が可視化されることで、ユーザーから不具合の指摘があったときにも改善すべき点をひも解くことができるのだ。

Langfuseとは？活用のポイントをデモで紹介

　Langfuseは、グローバルの多くの企業や開発者から圧倒的な⽀持をもつ LLM Engineering Platformで、オープンソースでも展開されている。

　LangfuseはLLMopsに必要なすべての機能を、エンタープライズ水準でカバーしている。生成AIアプリケーション利用状況の統計を取得してダッシュボードで可視化。プロンプトの管理や評価は自動で行うだけでなく、人間の手で実施するパターンにも対応している。

　また、データセットを通してLLMアプリケーションを継続的に改善する機能も備えており、例えば、アプリケーションがふさわしくない回答を返したとき、問題の部分を特定して改善につなげられる。やみくもにプロンプトやモデルを変更する必要はない。

　さらに、「LLM As A Judge」の機能によってLLMのアウトプットを自動で評価。そこで見つかった問題に対して人間が二次評価を行うというサイクルを備えている。

　嘉門氏は、Langfuseの実際の画面を用いてデモを紹介した。

　あるチャットボットに質問して、少し待つと回答が出てくる。その処理をLangfuseのダッシュボードに確認しにいくと、処理にかかった時間やトレース数、コストなどが表示されている。

　生成AIのアプリケーションではよくRAGという仕組みが使われるが、この仕組みによって類似性（シミュラリティ）の評価が高いデータをもとに結果を返している。Langfuseは「好ましくない結果が返ってきたときにどんなソースから取ってきて回答を作っているのかたどることができ、シミュラリティの値などを確認しながら、RAGの品質改善を実現できる」という。

　また、Langfuseは「プロンプト（モデル）の管理」もできるのが魅力だ。本来アプリケーション側で手で書く必要のあるプロンプトを、Langfuse側で管理しておき、アプリケーション側からフェッチする形で利用することが可能なのだ。

　「Langfuseを使うことで、どのプロンプトが一番効果的だったのかを評価することができる」と嘉門氏。モデルごとの差分や、定量的なメトリクスによる評価、ユーザーのフィードバックから評価を一目で参照することができる。

　さらにLangfuseにはA/Bテストなどを含むテスト機能も搭載。

　「ユーザーからのフィードバックを受けて改善し、それをテストしリリースするといった一連の流れをLangfuseというOSSで完結できます」