生成AI開発に欠かせない「LLMOps」
GAO(ガオ株式会社)は「GenAI Ops」の略で、Google Cloud に特化したSIや組織におけるAI推進を手掛けるクラウドエースを擁する、吉積ホールディングスグループの一員。「Langfuse」というLLMOpsサービスを中心にAIソリューションを展開している。生成AIの導入から、その後の顧客企業のビジネスの成功まで伴走するのが特徴だ。

LLMOpsとは、生成AIを用いたアプリケーションを一貫して管理する手法である。昨今、大規模言語モデル(LLM)を用いて生成AIを搭載したサービスを開発・提供する企業が増える中、その品質や安全性を担保するために必要な活動として注目されている。

嘉門氏は、「特に品質・信頼性にとってLLMOpsは重要。LLMOpsがないと、生成AIのアプリケーションを導入したユーザーに一定のクオリティを提供できているのかわからない」と指摘する。
たとえユーザーから品質劣化の指摘があっても、開発運用のプロセスが適切に管理されていなければ原因を特定することができない。これをLLMOpsの手法を使って管理することで、ユーザーにとって高い品質を維持できているかを常に把握できるようになる。問題が発生したら検知して、原因を特定し、改善していくというプロセスが回るようになるわけだ。
また、生成AIアプリケーションの中で使われているプロンプトやモデルを切り替えようとすると、再度CI/CDパイプラインを回す必要が出てくることが多い。LLMOpsを導入することで、プログラムコードを触らずにプロンプトそのものを変更できるようになる。
その他にも、LLMOpsを取り入れることで、LLMの利用料を分析してコストを管理したり、有事の際に原因追跡できるようにガバナンス・リスクを管理したりといった運用が可能になる。
LLMOpsを実践するには、アプリケーションの状況を可視化し、それがフィードバックされて、改善されて、また新しいリリースにつながる、というサイクルを回す必要がある。
しかし嘉門氏は、生成AIアプリケーションの開発における課題として「開発・提供側がアプリを改善しようとしても、実際の利用状況を把握するのは難しい。アンケートをとっても、ユーザーは回答のモチベーションがなかったり、回答してもあいまいな情報しか取得できなかったりする」と指摘する。
そこで役立つのが「Langfuse」などのLLMOps用のプラットフォームだ。Langfuseはユーザーからのインプットと生成AIのモデルからのアウトプットをまとめてトレースし、蓄積してくれる。LLMOpsの肝となるこの処理を通じて、内部処理が可視化されることで、ユーザーから不具合の指摘があったときにも改善すべき点をひも解くことができるのだ。
Langfuseとは? 活用のポイントをデモで紹介
Langfuseは、グローバルの多くの企業や開発者から圧倒的な⽀持をもつ LLM Engineering Platformで、オープンソースでも展開されている。
LangfuseはLLMopsに必要なすべての機能を、エンタープライズ水準でカバーしている。生成AIアプリケーション利用状況の統計を取得してダッシュボードで可視化。プロンプトの管理や評価は自動で行うだけでなく、人間の手で実施するパターンにも対応している。

また、データセットを通してLLMアプリケーションを継続的に改善する機能も備えており、例えば、アプリケーションがふさわしくない回答を返したとき、問題の部分を特定して改善につなげられる。やみくもにプロンプトやモデルを変更する必要はない。
さらに、「LLM As A Judge」の機能によってLLMのアウトプットを自動で評価。そこで見つかった問題に対して人間が二次評価を行うというサイクルを備えている。
嘉門氏は、Langfuseの実際の画面を用いてデモを紹介した。
あるチャットボットに質問して、少し待つと回答が出てくる。その処理をLangfuseのダッシュボードに確認しにいくと、処理にかかった時間やトレース数、コストなどが表示されている。

生成AIのアプリケーションではよくRAGという仕組みが使われるが、この仕組みによって類似性(シミュラリティ)の評価が高いデータをもとに結果を返している。Langfuseは「好ましくない結果が返ってきたときにどんなソースから取ってきて回答を作っているのかたどることができ、シミュラリティの値などを確認しながら、RAGの品質改善を実現できる」という。
また、Langfuseは「プロンプト(モデル)の管理」もできるのが魅力だ。本来アプリケーション側で手で書く必要のあるプロンプトを、Langfuse側で管理しておき、アプリケーション側からフェッチする形で利用することが可能なのだ。
「Langfuseを使うことで、どのプロンプトが一番効果的だったのかを評価することができる」と嘉門氏。モデルごとの差分や、定量的なメトリクスによる評価、ユーザーのフィードバックから評価を一目で参照することができる。
さらにLangfuseにはA/Bテストなどを含むテスト機能も搭載。
「ユーザーからのフィードバックを受けて改善し、それをテストしリリースするといった一連の流れをLangfuseというOSSで完結できます」
SaaS版とセルフホスト版、何が違う?
Langfuseのプロダクトラインナップは、SaaS版とセルフホスト版の主に2つ。

セルフホスト版には、OSSとエンタープライズ向けの2つがあり、嘉門氏いわく「OSS版もかなり機能が充実しているので、多くのケースで活用できる」という。
エンタープライズ向けのバージョンには、OSS版の機能に加えて、高度な権限の設定や監査録の取得といった機能が備わっている。「エンタープライズ企業で本格的に利用したい方にご検討いただきたい」と嘉門氏。
セルフホスト版をインストールするにあたって、もっともシンプルなのはVMやPCで実⾏可能なDocker composeを利用する方法だ。
最後に嘉門氏は、ガオが提供しているLangfuseの導⼊・運⽤⽀援サービスを紹介した。同社は「Langfuse Booster」と「LLM OpsCare」という2つのサービスを提供している。
「トレーニングを通して、コードへの適用の仕方などをご紹介しています。Langfuseのセットアップだけでなく、その後のLLMの運用プログラムやテストも全部お任せいただけます。生成AIアプリケーションの提供には、LLMOpsは必須。Langfuseを使った管理をぜひご検討いただければと思います」
生成AIアプリケーションの継続的な精度改善と安定運用を実現
LLMOpsの実現には、開発プロセスを可視化・評価し、課題を迅速に特定する仕組みが不可欠です。オープンソースの観測プラットフォームLangfuseは、LLMアプリケーションのトレーシング、デバッグ、評価を可能にし、その重要な基盤となります。
GAOでは、Langfuseの導入支援から、モデルの性能を最大化するためのLLMOpsコンサルティングまで、専門チームが包括的にサポートします。LLM活用の高度化や、ビジネス価値の向上をご検討の際は、お気軽にご相談ください。