オンコールのベストプラクティスに必要なことは?
続いて、ベストプラクティスに向けた3つのポイントが紹介された。1つは「引き継ぎミーティング」である。オンコール対応の終了時、次の担当者と交代する前に、何らかの引き継ぎをすること。正式な会議を行う必要はなく、立ち話でもメールやSlackでメッセージを送るだけでもいいので、現状を伝えることが重要となる。
2つ目は「設備」。担当者が自宅からログインしてオンコール対応ができるように、ノートパソコン、電話、インターネット接続が可能な手段を提供すること。ただし、これはコロナ禍以降のリモートワーク推奨により、解決している企業も多いと考えられる。
3つ目は、アカウントとアクセス権について「チェックリストを作ること」。オンコール時に必要な事柄をまとめてチェックリスト化しておくことで、よりスムーズな対応が可能となる。
オンコール文化構築に向けたコミュニケーションのポイント
オンコールチーム内において、オンコール文化を構築することはとても重要なベストプラクティスとなる。その際にポイントとなるのがコミュニケーションのとり方だ。以下にて、重要な要素をいくつか紹介する。
共感
最も重要な要素は「共感」だ。可用性の高い本番システムの運用には、多くのストレスが伴うため、協力的な文化を築くことは欠かせない。インシデント発生時には、それまで「全く問題ない」と思っていたことが覆されることも少なくない。メンバーの気持ちに寄り添うことは大切だとMandi Walls氏は強調する。
「メンバーの心理的負担を軽減したいのであれば、インシデント対応について責めるべきではありません。『誰も責めない』ポストモーテムの原理と同様です」
心理的安全性
心理的安全性が確保された組織であることも重要だ。積極的な取り組みや行動変化を促し、「質問しても問題ない」「結果を恐れず提案しても問題ない」と感じられる職場環境を築く必要がある。Mandi Walls氏はパイオニア的存在であるAmy Edmondson教授のホワイトペーパーを紹介し、その重要性を語った。
新人研修
新人には「聞くだけ」の状態で参加し、新たな業務内容について学べる場となる新人研修を用意する。新人にとってオンコールはなじみのない業務であり、誰しも初めから良い仕事はできない。実際に体験することで、現場の状況を知ることで自信も生まれる。
「PagerDutyでは新人はまずシャドーローテーションに組み込まれます。聞くだけの状態ですが、オンコール担当者と同様に通知を受け取り、あらゆる情報を吸収し、全体的な現場作業について学びます。インシデントコマンダーの導入もお勧めです」
振り返りと改善
オンコール業務の目的は信頼性を高めること、そしてユーザー体験の向上。インシデントを解決すると同時に、学びを得る必要がある。その一環として行うのが、インシデントを振り返るポストモーテム(事後検討)だ。
インシデントが発生した経緯、得た教訓、他のツールの問題などを検討し、システムの信頼性を明確に向上させる方法を探ること、平均修復時間(MTTR)や平均確認時間(MTTA)などのメトリクスを管理することなどが推奨される。サービスレベル目標(SLO)の達成に向けた進捗や、インシデントのエラー予算を管理することも役立つ指標となる。
他チームへのエスカレーション
必要であれば、他のチームにエスカレーションすることもベストプラクティスの1つ。PagerDutyでは行動指針として、「エスカレーションをためらわないこと」を掲げているという。
重大インシデントの宣言
「重大」の定義は各社で異なるが、状況に応じて重大インシデントを宣言することも重要だ。影響を受けた顧客数やアプリケーション内のサービス数、インシデント継続期間などが指標になる。チャットアプリ機能を利用して、エスカレーションを自動化するのも良い。また、状況に応じたエスカレーションや重大インシデントの宣言を躊躇なく行える文化と慣習を確立することも推奨される。