インシデントコマンダーとインシデント対応組織を支えるPagerDuty
指揮をするインシデントコマンダーがボトルネックになることが懸念されるが、PagerDutyの支援によってそのリスクを低減できる。たとえば、影響範囲の把握には「Service Graph」機能があり、これによって誰とどのような連携をすれば良いかがわかる。
大規模なインシデントが発生した場合、関係者を招集する「War room」が設けられる。リモートやオンラインでの対応が求められる現代では、SlackやTeamsなどのツールを用いて対応室を設けることが多い。PagerDutyなら、自動的にそれらのツール内に専用のチャンネルを作成し、関係者を追加してくれる。自動化されることによって、稼働が逼迫しやすいインシデント対応中でも抜け漏れなくコミュニケーションを取ることができる。
インシデントコマンダーは、CIOや他のチーム、ユーザー対応担当者などと連携するためにインシデントの状況を逐一報告しなければならない。この連携は個別ではなくブロードキャスト型で行うことが重要であり、アナウンスを一元化することで、関係者全員に迅速に情報を伝えることが可能となる。PagerDutyには、ステータスアップデート機能や内部向けステータス情報の共有ができる。
インシデントコマンダーに対して、経験豊かなCIOやCTOなどからの詳細な問い合わせや提案がある場合があるが、これらが混乱を招くこともある。インシデントコマンダーは、インシデント発生時にはCIOやCEOよりも権限を持ち、必要に応じてこれらの上層部からの不要な介入を防ぐ役割を持つ。さらに、担当メンバーの健康や疲労管理も求められる。PagerDutyでは、個人に負荷が偏らないようにする機能や、呼び出しのスケジュールを管理する「Analytics Dashboard」など、作業負担の可視化や管理を支援するツールが提供されている。
インシデント対応中は多忙になるため、定型的な作業は自動化することが望ましい。ネットワークのトラブルシューティングやGitHubでの変更履歴の確認など、自動化可能な作業は自動化して、対応の迅速化を図るべきである。PagerDutyを使用すれば、関係する値の変更を一元的に集約し、一目で把握可能となる。これは、過去の類似インシデントや特定の時間帯に発生するインシデントのアラートの可視化も含む。特定の曜日の深夜にのみ発生するインシデントに対しては、その関連性を即座に確認し、過去の対応策を参照できる。
さらに、Automation Actions機能を使用すれば、アラート発生時に自動的に特定のスクリプトを実行し、問題をチェックできる。Rundeckというオープンソースのジョブスケジューラーや、その商用版であるProcess AutomationやRunbook Automationとの連携による自動化も可能である。有事の際に自動的にスクリプトを実行し、問題の切り分けや修復を行うことができる。
インシデントが解決した後に、同じ問題を再発させないようにするためにも、振り返りを行う「ポストモーテム」も重要だ。PagerDutyには、ポストモーテム作成の支援機能がある。受信したイベント、ステータスアップデート、インシデントノート、Slackで交わされた会話などからタイムラインを作成できるため、文書化が容易になる。
インシデントコマンダーの役割は、システムを直接修復することではなく、調整することである。そのため、インシデントに詳しい必要はなく、コミュニケーションスキルやサービス全体の連携に関する知識、場での意思決定能力が求められる。PagerDutyでは、インシデントコマンダーに関する役立つコンテンツやガイドを公開している。さらに、生成AI技術を活用した「PagerDuty Copilot」などの便利な機能も提供されており、インシデント対応の効率化に役立てることができる。
草間氏は最後に、改めてインシデントコマンダーの時代が到来することを唱え「非常に重要なポジションであり、社会に貢献する役職ですので、ぜひ目指していただきたいと思います。また、インシデント対応と言えば、PagerDutyが欠かせません。どうぞよろしくお願いします」とコメントした。
PagerDuty 無料トライアル
インシデント対応には不可欠のPagerDuty。700以上ものツールと連携可能で、システム障害を自動的に検出・診断するだけでなく、適切な障害対応メンバーをアサインし、デジタル業務全体の修復ワークフローを自動化します。本記事で興味を持たれた方は、ぜひ無料トライアルをお試しください。