DevOpsやSREが浸透し、開発チームもオンコール担当に
オンコールとは、システム上でインシデントやアラートといった想定外のイベントが発生した場合に、一部の従業員へ通知される状態・対応を意味する。オンコールプロセスが標準化されていない場合、問題発生時に状況を知っていそうな人物に手当たり次第に連絡することで解決を図るケースが多い。そこで、オンコールの標準化したプロセスとスケジュールが重要となるとMandi Walls氏は語る。
「オンコールにおいては、適切なタイミングに適切な人材が対応する環境を整え、インシデントが顧客やユーザーに与える影響を最小化しなくてはいけません。しかし、システムやアプリケーションの多くは複雑な問題を抱えており、そこで何が起こっているのか、状況を常に把握しておくことは困難です」
近年、DevOpsやSRE(サイト信頼性エンジニアリング)モデルが探求されるようになり、オンコール担当者の範囲が広がっている。以前であれば、アプリケーション開発チームが開発したコードは、オペレーションチームに引き渡され、そこで管理が行われていたが、現在は問題発生時の一次対応者として、アプリケーション開発チームのオンコール責任が増しているのだ。
「問題への対応や修復にかかる時間を短縮するには、一次対応者としてコードを書いた本人、もしくはそのコードを熟知している開発者をオンコール担当とします。そこで重要なのは、各開発者が熟知している領域に注目し、本番システムを細かく分割統治すること。それぞれの専門領域に基づいて、オンコール担当を分割することです」
また、オンコールでは「対応すべき日時」「担当者」「担当する呼び出し内容」を明確にし、シフトは定期的なローテーション、「担当する役割で期待されること」「目標を明確に定めること」を推奨するとMandi Walls氏は言う。
「予定外の問題に対応するオンコール対応者のために、想定外の要素を減らすこと。そして、マネージャーは全メンバーの健康状態、呼び出されたメンバー、夜中に起こされたメンバーを把握してください」