Developers Summit 2024 セッションレポート（AD）

サービス危機を解決へと導く「インシデントコマンダー」の役割とは？組織で取り組むインシデント対応と戦術

【15-E-3】サービスの危機に立ち向かうリーダーシップ～インシデントコマンダーの役割と戦略～

2024/04/04 12:00

ポスト

インシデントコマンダーとインシデント対応組織を支えるPagerDuty

　指揮をするインシデントコマンダーがボトルネックになることが懸念されるが、PagerDutyの支援によってそのリスクを低減できる。たとえば、影響範囲の把握には「Service Graph」機能があり、これによって誰とどのような連携をすれば良いかがわかる。

　大規模なインシデントが発生した場合、関係者を招集する「War room」が設けられる。リモートやオンラインでの対応が求められる現代では、SlackやTeamsなどのツールを用いて対応室を設けることが多い。PagerDutyなら、自動的にそれらのツール内に専用のチャンネルを作成し、関係者を追加してくれる。自動化されることによって、稼働が逼迫しやすいインシデント対応中でも抜け漏れなくコミュニケーションを取ることができる。

　インシデントコマンダーは、CIOや他のチーム、ユーザー対応担当者などと連携するためにインシデントの状況を逐一報告しなければならない。この連携は個別ではなくブロードキャスト型で行うことが重要であり、アナウンスを一元化することで、関係者全員に迅速に情報を伝えることが可能となる。PagerDutyには、ステータスアップデート機能や内部向けステータス情報の共有ができる。

　インシデントコマンダーに対して、経験豊かなCIOやCTOなどからの詳細な問い合わせや提案がある場合があるが、これらが混乱を招くこともある。インシデントコマンダーは、インシデント発生時にはCIOやCEOよりも権限を持ち、必要に応じてこれらの上層部からの不要な介入を防ぐ役割を持つ。さらに、担当メンバーの健康や疲労管理も求められる。PagerDutyでは、個人に負荷が偏らないようにする機能や、呼び出しのスケジュールを管理する「Analytics Dashboard」など、作業負担の可視化や管理を支援するツールが提供されている。

　インシデント対応中は多忙になるため、定型的な作業は自動化することが望ましい。ネットワークのトラブルシューティングやGitHubでの変更履歴の確認など、自動化可能な作業は自動化して、対応の迅速化を図るべきである。PagerDutyを使用すれば、関係する値の変更を一元的に集約し、一目で把握可能となる。これは、過去の類似インシデントや特定の時間帯に発生するインシデントのアラートの可視化も含む。特定の曜日の深夜にのみ発生するインシデントに対しては、その関連性を即座に確認し、過去の対応策を参照できる。

　さらに、Automation Actions機能を使用すれば、アラート発生時に自動的に特定のスクリプトを実行し、問題をチェックできる。Rundeckというオープンソースのジョブスケジューラーや、その商用版であるProcess AutomationやRunbook Automationとの連携による自動化も可能である。有事の際に自動的にスクリプトを実行し、問題の切り分けや修復を行うことができる。

　インシデントが解決した後に、同じ問題を再発させないようにするためにも、振り返りを行う「ポストモーテム」も重要だ。PagerDutyには、ポストモーテム作成の支援機能がある。受信したイベント、ステータスアップデート、インシデントノート、Slackで交わされた会話などからタイムラインを作成できるため、文書化が容易になる。

　インシデントコマンダーの役割は、システムを直接修復することではなく、調整することである。そのため、インシデントに詳しい必要はなく、コミュニケーションスキルやサービス全体の連携に関する知識、場での意思決定能力が求められる。PagerDutyでは、インシデントコマンダーに関する役立つコンテンツやガイドを公開している。さらに、生成AI技術を活用した「PagerDuty Copilot」などの便利な機能も提供されており、インシデント対応の効率化に役立てることができる。

　草間氏は最後に、改めてインシデントコマンダーの時代が到来することを唱え「非常に重要なポジションであり、社会に貢献する役職ですので、ぜひ目指していただきたいと思います。また、インシデント対応と言えば、PagerDutyが欠かせません。どうぞよろしくお願いします」とコメントした。

PagerDuty 無料トライアル

　インシデント対応には不可欠のPagerDuty。700以上ものツールと連携可能で、システム障害を自動的に検出・診断するだけでなく、適切な障害対応メンバーをアサインし、デジタル業務全体の修復ワークフローを自動化します。本記事で興味を持たれた方は、ぜひ無料トライアルをお試しください。

PagerDuty 無料トライアルはこちらから

関連リンク: 月1万件のアラートが1/10に！元AWSエンジニアの経験から生まれた「PagerDuty」のインシデント対応とは

LINEのプライベートクラウド「Verda」のDevOpsを支えるPagerDutyによるインシデント管理

インシデント対応をスムーズに、PagerDutyが生成AIでの自動化支援機能「PagerDuty Copilot」を発表

この記事は参考になりましたか？

印刷用を表示

ポスト

Developers Summit 2024 セッションレポート連載記事一覧: 『システム障害対応実践ガイド』著者が語る、1000件の事例から学んだ障害対応のベストプラ...

「どこか他人ごと」な防災DX、実際どれだけ進んでいる？国・自治体が提供しているシステムと...

ソフトウェアテストは「段階」ではなく「活動」である──ブロッコリー氏が問う、プロダクトに求...

もっと読む

この記事の著者: 森英信（モリヒデノブ）

就職情報誌やMac雑誌の編集業務、モバイルコンテンツ制作会社勤務を経て、2005年に編集プロダクション業務やWebシステム開発事業を展開する会社・アンジーを創業。編集プロダクション業務においては、IT・HR関連の事例取材に加え、英語での海外スタートアップ取材などを手がける。独自開発のAI文字起こし・...

※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です

この著者の最近の執筆記事; 山出高士（ヤマデタカシ）

雑誌や広告写真で活動。東京書籍刊「くらべるシリーズ」でも写真を担当。

※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です

この著者の最近の執筆記事; CodeZine編集部（コードジンヘンシュウブ）

CodeZineは、株式会社翔泳社が運営するソフトウェア開発者向けのWebメディアです。「デベロッパーの成長と課題解決に貢献するメディア」をコンセプトに、現場で役立つ最新情報を日々お届けします。

※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です

この著者の最近の執筆記事