障害対応の総合力を競う「現場あるある」を想定したルール
PagerDuty Challenge Cupとは、PagerDutyの機能を活用しながら、各企業の現場で活躍するエンジニア3名がチームとなり、障害対応の成熟度を競う体験型の大会だ。各チームは架空のチャットサービスを運用している担当者という設定で参加する。このサービスにはランダムに障害が発生するため、90分間の制限時間内にすばやく対処を行い、サービスを正常に保つことがミッションとなる。具体的には、各チームは以下のような採点基準の下で競い合う。
- 障害を解消したかどうか
- ステークホルダー役と適切なコミュニケーションを取れたか
- MTTA(Mean Time to Acknowledge/平均確認時間)
- ポストモーテムのレポート作成
この競技で重要なのは、単に障害を解消することだけではない。ステークホルダー役との円滑なコミュニケーションも評価される。なぜなら、実際の障害では、システムだけでなくさまざまなステークホルダーと適切なコミュニケーションを取る必要があるからだ。障害が発生すると、ビジネス担当者やカスタマーサポート担当者、その先にいるエンドユーザーにも大きな影響がある。現状や復旧見込みが不透明だと、当然エンドユーザーの不満に繋がってしまう。

また、素早く障害を発見することも評価される。現実の障害では、運用チームだけですべての問題を解消できるとは限らない。その際は、関連チームに可能な限り速くエスカレーションする必要があるからだ。現場を想定したロールプレイを交えて、こうした障害対応の全体的な成熟度を問うのが、PagerDuty Challenge Cupのユニークな点だ。

チームメンバーの役割分担は、以下のように規定されている。
- 障害コマンダー:指揮、外部対応を行うロール。最も強い権限を持つ
- レスポンダー:ログをチェックしたり、コマンド操作を行うなど、実際にシステムの障害対応を行うロール
- スクライブ:書記。これまでの経緯や、実際の対処などを記録し、ステークホルダーに情報共有するロール
レスポンダーとスクライブは、一定時間で交代し、引き継ぎを行わねばならない。これも、実際の障害対応を想定してのルールだ。大規模な障害になると、対処すべき箇所が広がり、ステークホルダーと頻繁にコミュニケーションを取らねばならない。そこで、全体指揮を取る障害コマンダーが必要になる。また大規模障害は、解決に時間がかかるので、引き継ぎが必要になる。引き継ぎのためにも、ステークホルダーとのコミュニケーションや、再発防止のためのポストモーテム作成にも、起票した障害のステータスを更新しつつ、前提となる情報を集約することが欠かせない。レスポンダーだけでなく、スクライブも重要な役割である理由だ。
このようなルールのもとで、円滑な障害対応を進めていくためには、PagerDutyの機能をうまく活用することも重要だ。例えば、スクライブがきっちりとメモを残していれば、PagerDutyの生成AI機能で、簡単にポストモーテムを作成することができる。また言葉でのコミュニケーションだけでなく、ステータスを変更して、情報を残すことも立派なコミュニケーションだ。本イベントの企画・司会を務めたPagerDuty 草間一人氏によれば「PagerDutyは役割分担をすることで、より効果的に活用できるように作られている」という。