変更の自動リストアップや対応履歴の参照機能など、迅速な問題解決を支援!
協力/解決フェーズは、通知を受けた担当者がいかに迅速に問題を解決できるかを支援する。
原因を特定するには、手がかりが必要だ。これは、現在インシデントが発生しているサービスで最近行われた変更を自動でリストアップするRecent Changes機能、過去のアラート情報や対応履歴を参照して現在のインシデントと関連性が高いものを自動で提示するPast Incidents機能、他サービスで発生中のインシデントで関連性の高いものを提示するRelated Incidents機能などがサポートする。インシデントにつながる変更はあったのか、過去の類似インシデントではどのような対応が行われたのか、他サービスの影響によるものかどうかなど、解決に必要な情報が自力で調査することなく提示されることで、次のアクションへスムーズにつなげることができる。
特に最近のシステムは複数サービスの依存関係で成り立っており、担当チームと素早く連絡を取り合って対応に当たることができるのは重要だ。PagerDutyではこうした機能が豊富に用意されている。たとえば、他サービスの担当者に通知して協力を仰ぐAdd Responders機能、チーム外の関係者とインシデント対応状況を共有して対応作業を円滑化するStatus Update機能などが挙げられる。また、PagerDuty上で実行する一連のアクションをワークフローとして定義し、自動実行するIncident Workflow機能も有用だ。たとえば他チームへの協力依頼を出してからステークホルダーを追加、Zoom会議を設定するなど、インシデント対応の典型的な流れがあれば、それをワークフローに定義して自動実行するといった具合だ。こうした事務的な手続きから解放されることで、より業務に集中できるようになる。
このほか、自動診断スクリプトや修復ジョブを事前に定義して自動実行することもできる。もちろん、手動で実行したり、アラートに含まれる情報を条件にイベントドリブンで診断をキックしたりすることも可能だ。たとえば、インシデント対応をする担当者に一部のシステムへのアクセス権がない場合でも、一次切り分けの診断をジョブとして用意し、誰でも実行できるようにしておけば、速やかな対応が実現する。
「PagerDutyは、運用の負荷を下げてエンジニアが新機能の開発やサービスの安定化といった、より重要なサービスに注力できるよう支援する。講演で説明した以外にも、さまざまな便利な機能があるので、ぜひチェックしてほしい」(山田氏)
月に1万件あったアラート数を10分の1に削減。NTTドコモが実践したインシデント対応改善
NTTドコモ様はAWS と PagerDuty を使用し、最高クラスのインシデント対応プロセスを実装することでシステムノイズとアラート疲れを大幅に軽減し、インシデント解決時間を大幅に短縮しました。
インシデント対応を行なっている DevOps や IT 運用チーム向けのセッションとなっておりますが、アラートの精査やクリティカルなインシデント発生後の通知・連絡に課題を感じている方は、是非こちらの動画をご視聴下さい。