SHOEISHA iD

※旧SEメンバーシップ会員の方は、同じ登録情報(メールアドレス&パスワード)でログインいただけます

CodeZine編集部では、現場で活躍するデベロッパーをスターにするためのカンファレンス「Developers Summit」や、エンジニアの生きざまをブーストするためのイベント「Developers Boost」など、さまざまなカンファレンスを企画・運営しています。

Developers Summit 2023 セッションレポート(AD)

月1万件のアラートが1/10に! 元AWSエンジニアの経験から生まれた「PagerDuty」のインシデント対応とは

【9-A-5】月に1万件あったアラート数を10分の1に削減。PagerDutyで実現するインシデント管理

  • このエントリーをはてなブックマークに追加

連携サービスは700以上! 普段のアラートから対応が必要なものを区別しよう!

 山田氏はPagerDutyインシデント対応ソリューションの特長を、デモを交えつつ紹介した。

 1つは、豊富な連携サービスだ。PagerDutyと外部サービス/ツール間のデータのやりとりを集約する基盤に、PagerDuty Digital Operations Platformがある。このプラットフォームを介して、検知フェーズではイベントデータを外部の連携ツールから取得、協力・解決フェーズではカスタマーサポートサービスやITOpsツールなどに分析結果を送信することができる。連携サービスは、700以上。APIやメール経由で外部サービスの検知結果をそのまま通知することも可能で、既存の設定や機能を活かす資産保護にも対応している。

 トリアージフェーズでは、担当者が対応しなくても処理可能な“ノイズ”をAIやルール設定で排除する機能を提供する。たとえばAlert Grouping機能では、指定した時間内に受信したアラートを、中身や時間からAIが自動仕分けで1つのインシデント配下に集約し、不要な通知を削減する。またTransient Alerts機能では、短時間で自動復旧するような一過性のインシデントをAIが検出して通知を一時停止。復旧しない場合にのみ通知を飛ばす。

不要なノイズを削減
不要なノイズを削減

 もちろん、条件を指定してマッチした場合にアクションを実行する設定も可能だ。条件は、アラートに含まれるフィールド情報やアラートを受け取ったタイミング、頻度など、複数を柔軟に組み合わせて設定できる。優先順位を設定すれば、緊急度の低いものはプッシュ通知せずにチケットだけ発行し、後日に順次対応するといったことも可能だ。また、すでに自動復旧機能を別製品で導入している場合は、Webフックなどを活用して、どの宛先にどの情報を通知するかといった設定もできる。「NTTドコモでは同機能により、約90%のノイズ削減を実現した」(山田氏)

担当者が捕まらなくても安心な「エスカレーションポリシー」

 動員フェーズでは、トリアージフェーズで選別されたインシデントを対応に回す。これにはまず、インシデントの影響範囲と通知先の担当者をビジネスサービスとテクニカルサービスとして定義する必要がある。ビジネスサービスはエンドユーザーが利用するサービスで、テクニカルサービスはビジネスサービスが正常に稼働するための技術コンポーネントを意味する。たとえばECサイトの場合、ECのスマホアプリやWebサイトをビジネスサービスとして定義し、テクニカルサービスにはそれらの構成要素となる、決済を行うサービスや推奨商品情報を提示するサービスなどを定義する。このとき、モバイルアプリで問題が発生、またはコンテンツにアクセスする際に経由するAPIゲートウェイで問題があるといったとき、単一チームが責任持って対応できるよう、テクニカルサービスでエスカレーションポリシーを紐付けて担当者に通知する仕組みを作る。

エスカレーションポリシーで通知先と順番を定義
エスカレーションポリシーで通知先と順番を定義

 エスカレーションポリシーでは、最初の通知先である担当者が指定した時間内に応答しない場合、次のレベルの担当者に通知を行う。通知の際は、On-Call Schedulesを参照して、その時間帯のシフトについている担当者を確認する。これが繰り返しながらエスカレーションし、最終的に誰も応答ない場合はチームのメンバー全員に一斉通知するといった設定も可能だ。Slackではさらに深い連携が実装されており、他の担当者の割り振りなど各種アクションをSlackから実行することができる。対応が必要なインシデントを絶対に見逃さない仕組みは、PagerDutyの特長のひとつだ。

次のページ
変更の自動リストアップや対応履歴の参照機能など、迅速な問題解決を支援!

関連リンク

この記事は参考になりましたか?

  • このエントリーをはてなブックマークに追加
Developers Summit 2023 セッションレポート連載記事一覧

もっと読む

この記事の著者

谷崎 朋子(タニザキ トモコ)

 エンタープライズIT向け雑誌の編集を経てフリーランスに。IT系ニュースサイトを中心に記事を執筆。セキュリティ、DevOpsあたりが最近は多めですが、基本は雑食。テクノロジーを楽しいエクスペリエンスに変えるような話が好きです。

※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です

CodeZine編集部(コードジンヘンシュウブ)

CodeZineは、株式会社翔泳社が運営するソフトウェア開発者向けのWebメディアです。「デベロッパーの成長と課題解決に貢献するメディア」をコンセプトに、現場で役立つ最新情報を日々お届けします。

※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です

提供:PagerDuty株式会社

【AD】本記事の内容は記事掲載開始時点のものです 企画・制作 株式会社翔泳社

この記事は参考になりましたか?

この記事をシェア

  • このエントリーをはてなブックマークに追加
CodeZine(コードジン)
https://codezine.jp/article/detail/17476 2023/04/04 12:00

おすすめ

アクセスランキング

アクセスランキング

イベント

CodeZine編集部では、現場で活躍するデベロッパーをスターにするためのカンファレンス「Developers Summit」や、エンジニアの生きざまをブーストするためのイベント「Developers Boost」など、さまざまなカンファレンスを企画・運営しています。

新規会員登録無料のご案内

  • ・全ての過去記事が閲覧できます
  • ・会員限定メルマガを受信できます

メールバックナンバー

アクセスランキング

アクセスランキング