「可視化」の先へ──進化を続ける統合オブザーバビリティ基盤「Grafanaスタック」
オブザーバビリティを構成するのは、Logs、Grafana(Visualization)、Traces、Metricsで、これらは頭文字を取って「LGTMスタック」と呼ばれている。Grafana LabsはこのLGTMスタックをもとに、データ収集から保管、分析・対応、可視化までを統合した「Grafanaスタック」を構成している。これによりGrafanaが得意とする可視化に加えて、より広範囲かつ効果的なオブザーバビリティ基盤を提供している。
分析・対応の領域にはテスト、オブザーバビリティ、インシデントレスポンス管理がある。テストでは、パフォーマンステストやSynthetic Monitoringを実行する。オブザーバビリティでは、フロントエンド、アプリケーション、インフラやクラウド(例えばデータベースやKubernetesのPodの状態など)の監視測定も行う。さらにインシデント管理のソリューションも提供している。
データの収集領域では、テレメトリデータの収集エージェントであるGrafana Alloyを中心にデータを集める。収集したデータはLoki(ログ)、Mimir(メトリクス)、Tempo(トレース)、Pyroscope(プロファイル)などに保管する。
このGrafanaスタックは、プライベートクラウドやパブリッククラウドなどの独自基盤で構築する(Grafana OSSと呼ばれる)こともできるが、機能まるごとGrafana Labsがフルマネージドで提供するのが「Grafana Cloud」だ。
あらためてGrafana Cloudの特徴や強みを見ていこう。1点目がフルスタックなオブザーバビリティ基盤。より詳細な可視化やトラブル対応の迅速化が可能となる。2点目はアプリケーションのリソースを常時収集し続けるプロファイリング機能。例えばJavaアプリケーションを稼働させているなら、どのオブジェクトがどれだけ残存しているかを継続的に監視できるため、常にリソース効率を最適化し、応答時間を改善することが可能となる。
3点目はSLO駆動のIRM。サービスレベルを定義して、SLOが下回ればインシデントとして優先順位を割り振り対応することが可能となる。4点目は性能テスト。負荷テストツール「k6」を統合しているため、テストを実施できるだけではなく、負荷をかけている最中の内部状態をGrafanaのダッシュボードでリアルタイムに観測できる。
5点目はコストの最適化。クラウドにログを保存すればするほどコストがかさむものだが、不要なデータをGrafana CloudのAIであるAdaptive Telemetryが洗い出すため、コスト最適化に役立つ。これらの特徴的な機能は、結果的に信頼性の確保、生産性の加速、効率の向上といった効果を生んでいる。
Grafanaにネイティブ統合されたAIが習得の「壁」を壊す
これまでGrafanaそのものからGrafana Cloudまでざっと見渡したが、濃縮しても1ページに収めるのが難しいほど機能が豊富だ。それだけ数多くの機能を取り込み、拡張を続けてきたとも言える。
それゆえに「Grafanaは知っているけど、使いこなせている」と自信を持って言える人は多くないのではないだろうか。強力なツールであるゆえに、全体を網羅して習得するにはハードルが高くなってしまうことが起きる。クエリ言語の複雑さ、欲しい機能へのたどり着きにくさ、データのサイロ化などが起きがちで、結果的に十分な活用や期待した効果が得られないことも起きてしまう。
Grafana Labs シニアソリューションズエンジニア 角田勝義氏は「Grafanaのような製品は導入して終わりではなく、活用していくことで本来の効果を発揮していくものです。しかし活用に至るまでの壁が高い」と指摘する。
そこでGrafanaが壁を乗り越えるための解決策として提供するのが、Grafana Cloudにネイティブ統合されたAI「Grafana Assistant」だ。「こういうダッシュボードを作りたい」「こういうクエリで分析したい」と自然言語でリクエストすれば、それに沿ったものが作成される。人間の同僚と違い、どれだけ修正を依頼してもAIはめげずに改善してくれる点も心強い。
障害時には原因特定から復旧策や影響範囲の調査など、高度なスキルや経験がある専門家でないと難しい対応をAIが支援してくれる。他にも「こういうことをしたいのだけど」と相談すれば、最適な機能や設定をAIが提案してくれる。
角田氏はGrafana Assistantを「これまでツールの習得に費やしていた時間を、システムをより良くするための価値ある時間へと転換します」と話す。AIはデータが蓄積されているところで、よりよい効果を発揮できる。Grafanaにはすでに多くのデータが蓄積されているため、AIを活用するなら相性がいい領域と言えそうだ。
デモ:REDメソッドを知らずとも、アプリケーション性能監視ダッシュボードを作成
角田氏はGrafana Assistantを使用して何ができるかを2つのユースケースで披露した。まずはGrafana Assistantを開いてみよう。Grafanaを開いた画面で、左のメニューから「Assistant」を選ぶとGrafana Assistantに移る。
1点目のデモはダッシュボード作成だ。「専門知識がないからダッシュボードを作るのに苦労する」という壁を、Grafana Assistantが打破してくれる。
Grafana Assistant画面のプロンプトの部分で「Dashboard」と選ぶとダッシュボード作成のためのエージェントに切り替わる。そこで「アプリケーションの性能を監視するためのダッシュボードを作成して」と依頼すると、アシスタントがどのようなデータソースがあればいいかを考える。普段からGeminiやClaudeを利用していれば同じような感覚で操作できるので、あまり迷うことはないだろう。
AIがPrometheusなどのデータソースから目的に応じたデータを検索する。続いてリクエスト割合、エラー率、レイテンシといった「REDメソッド」に基づく重要指標のメトリクスを抽出して、グラフが作成されていく。
作成されたダッシュボードに対して「サービスごとにフィルタリングしたい」などのカスタマイズも可能だ。追加依頼に対して、必要な修正をAIが考えて全パネルに反映する。
デモ:ベテランの“勘”をAIが代替──RCA workbenchで挑む障害調査の自動化
2点目のデモは障害発生時の原因分析から対応までの迅速化だ。Grafana Cloudの独自機能となる「RCA(Root Cause Analysis:根本原因分析)workbench」を使う。
一般的には障害が起きると、メトリクスを確認し、ログを調べ、設定変更がないかを確認するなど、複数の画面を行き来して調査する必要がある。一方、Grafanaに実装されているRCA workbenchでは、障害の原因分析プロセスを1つのタイムラインで進めることができる。
例えばある日、運用担当者が使うSlackに「プロダクトカタログサービスにて障害が発生」と通知が届いたとする。そこで担当者がGrafanaを開くと、KubernetesのPodのクラッシュが多発していることや、エラー割合がしきい値を超えたことを確認できる。
さらに原因特定に役立つ情報が自動的に抽出される。ここでは最近「フィーチャーフラグ」という設定が変更されたことが操作履歴などから表示されていた。アプリケーションで新しい機能をリリースするとき、何らかの設定を変更することはよくある。こうした何気ない変更がKubernetesに影響を与えていたのだ。
ではどうして設定変更から障害につながってしまったのか。RCA workbenchでは、障害が起きているサービスがどのようなコンポーネントから呼び出されているのか、依存関係のグラフをマップ形式で自動生成する。そうして追っていくと「PostgreSQLのクライアント接続数エラーが発生している」と原因を特定できる。
こうした作業はベテラン運用者であればすぐできるかもしれない。しかし経験が浅い、または現場に参加して間もなく、システム構成を把握できていないと、手間取ってしまう。RCA workbench機能ではログやメトリクスを多角的に分析し、「設定変更による連鎖障害」といった形で、結論を日本語で回答してくれる。
原因特定後には復旧支援も行う。RCA workbenchでは、時系列で重要なアラートや変更履歴を示してくれる。このデモでは、フロントエンドでクリティカルなAPIエラーがアラートとして表示されていた。ここでGrafana Assistantに「復旧策を提示してください」と入力すると、AIが復旧策を提案してくれる。デモでは設定変更による連鎖障害だったため、即時対応としてロールバックが提案された。加えて恒久的な対策として、設定の見直しや、接続数制限の調整などが提案された。
ここまではPrometheusにあるメトリクス情報だけで分析が進められていたが、「ログも含めて影響範囲を調査して」と依頼すると、ログを横断検索して該当する時間帯にあるエラーを抽出する。これまで運用担当者が各種ログにアクセスしてgrepで抽出するといった作業をGrafana Assistantが同時並行で実施する。
続いてレポート作成のためのInvestigation機能だ。こちらもGrafana Cloudに実装されている。今回のエラーに対して調査プロセス全体をドキュメント化するため、事後の振り返り(ポストモーテム)にそのまま使える形に集約する。
なお「AIだからハルシネーションが起こるのでは」という懸念に対しては、AIがどのログの何行目を見て判断したのか証跡も残しているため、リスクを最小化できる。もし見当違いのログを見ていたら、再調査させることも可能だ。
最後に角田氏は「AIはコンテキストが重要。必要なデータがなければAIも宝の持ち腐れとなる。そしてGrafanaほど豊富なデータを持つものはない。Grafanaはエンドツーエンドのオブザーバビリティプラットフォームで、圧倒的な洞察力、テレメトリデータ、そしてコンテキストを提供できる」とGrafanaおよびGrafana Cloudの強みを強調した。
Grafana Labsからのお知らせ
本セッションでご紹介したサービスにご興味を持たれた方は、ぜひ公式サイトをご覧ください。

