SHOEISHA iD

※旧SEメンバーシップ会員の方は、同じ登録情報(メールアドレス&パスワード)でログインいただけます

CodeZine編集部では、現場で活躍するデベロッパーをスターにするためのカンファレンス「Developers Summit」や、エンジニアの生きざまをブーストするためのイベント「Developers Boost」など、さまざまなカンファレンスを企画・運営しています。

イベントレポート

SREの腕試し! 障害対応力を問う「現場あるある」を詰め込んだPagerDuty Challenge Cupレポート

  • X ポスト
  • このエントリーをはてなブックマークに追加

 4月10日に開催されたカンファレンスPagerDuty on Tourの中で、サービス運用における障害対応力を競うPagerDuty Challenge Cupが行われた。ゲーム形式のイベントは、PagerDutyとしてはグローバルでも初の試みとなるという。障害対応では、技術力だけでなく、ドキュメント化のスキルや、コミュニケーション力も問われる。現場で起こり得る、リアルなシチュエーションまで再現した競技に、SREたちはどう挑んだのか。

  • X ポスト
  • このエントリーをはてなブックマークに追加

障害対応の総合力を競う「現場あるある」を想定したルール

 PagerDuty Challenge Cupとは、PagerDutyの機能を活用しながら、各企業の現場で活躍するエンジニア3名がチームとなり、障害対応の成熟度を競う体験型の大会だ。各チームは架空のチャットサービスを運用している担当者という設定で参加する。このサービスにはランダムに障害が発生するため、90分間の制限時間内にすばやく対処を行い、サービスを正常に保つことがミッションとなる。具体的には、各チームは以下のような採点基準の下で競い合う。

  • 障害を解消したかどうか
  • ステークホルダー役と適切なコミュニケーションを取れたか
  • MTTA(Mean Time to Acknowledge/平均確認時間)
  • ポストモーテムのレポート作成

 この競技で重要なのは、単に障害を解消することだけではない。ステークホルダー役との円滑なコミュニケーションも評価される。なぜなら、実際の障害では、システムだけでなくさまざまなステークホルダーと適切なコミュニケーションを取る必要があるからだ。障害が発生すると、ビジネス担当者やカスタマーサポート担当者、その先にいるエンドユーザーにも大きな影響がある。現状や復旧見込みが不透明だと、当然エンドユーザーの不満に繋がってしまう。

障害対応はステークホルダー対応も重要
障害対応はステークホルダー対応も重要

 また、素早く障害を発見することも評価される。現実の障害では、運用チームだけですべての問題を解消できるとは限らない。その際は、関連チームに可能な限り速くエスカレーションする必要があるからだ。現場を想定したロールプレイを交えて、こうした障害対応の全体的な成熟度を問うのが、PagerDuty Challenge Cupのユニークな点だ。

 チームメンバーの役割分担は、以下のように規定されている。

  • 障害コマンダー:指揮、外部対応を行うロール。最も強い権限を持つ
  • レスポンダー:ログをチェックしたり、コマンド操作を行うなど、実際にシステムの障害対応を行うロール
  • スクライブ:書記。これまでの経緯や、実際の対処などを記録し、ステークホルダーに情報共有するロール

 レスポンダーとスクライブは、一定時間で交代し、引き継ぎを行わねばならない。これも、実際の障害対応を想定してのルールだ。大規模な障害になると、対処すべき箇所が広がり、ステークホルダーと頻繁にコミュニケーションを取らねばならない。そこで、全体指揮を取る障害コマンダーが必要になる。また大規模障害は、解決に時間がかかるので、引き継ぎが必要になる。引き継ぎのためにも、ステークホルダーとのコミュニケーションや、再発防止のためのポストモーテム作成にも、起票した障害のステータスを更新しつつ、前提となる情報を集約することが欠かせない。レスポンダーだけでなく、スクライブも重要な役割である理由だ。

 このようなルールのもとで、円滑な障害対応を進めていくためには、PagerDutyの機能をうまく活用することも重要だ。例えば、スクライブがきっちりとメモを残していれば、PagerDutyの生成AI機能で、簡単にポストモーテムを作成することができる。また言葉でのコミュニケーションだけでなく、ステータスを変更して、情報を残すことも立派なコミュニケーションだ。本イベントの企画・司会を務めたPagerDuty 草間一人氏によれば「PagerDutyは役割分担をすることで、より効果的に活用できるように作られている」という。

次のページ
障害発生! 口を挟むCTO! SREたちは何と向き合ったのか?

この記事は参考になりましたか?

  • X ポスト
  • このエントリーをはてなブックマークに追加
イベントレポート連載記事一覧

もっと読む

この記事の著者

Innerstudio 鍋島 理人(ナベシマ マサト)

 ITライター・イベントプロデューサー・ITコミュニティ運営支援。 Developers Summit (翔泳社)元スタッフ。現在はフリーランスで、複数のITコミュニティの運営支援やDevRel活動の支援、企業ITコンテンツの制作に携わっている。 Twitter:@nabemasat Facebook Web

※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です

小林 真一朗(編集部)(コバヤシシンイチロウ)

 2019年6月よりCodeZine編集部所属。カリフォルニア大学バークレー校人文科学部哲学科卒。

※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です

この記事は参考になりましたか?

この記事をシェア

  • X ポスト
  • このエントリーをはてなブックマークに追加
CodeZine(コードジン)
https://codezine.jp/article/detail/21436 2025/06/23 11:00

おすすめ

アクセスランキング

アクセスランキング

イベント

CodeZine編集部では、現場で活躍するデベロッパーをスターにするためのカンファレンス「Developers Summit」や、エンジニアの生きざまをブーストするためのイベント「Developers Boost」など、さまざまなカンファレンスを企画・運営しています。

新規会員登録無料のご案内

  • ・全ての過去記事が閲覧できます
  • ・会員限定メルマガを受信できます

メールバックナンバー

アクセスランキング

アクセスランキング