SHOEISHA iD

※旧SEメンバーシップ会員の方は、同じ登録情報(メールアドレス&パスワード)でログインいただけます

CodeZine編集部では、現場で活躍するデベロッパーをスターにするためのカンファレンス「Developers Summit」や、エンジニアの生きざまをブーストするためのイベント「Developers Boost」など、さまざまなカンファレンスを企画・運営しています。

Women Developers Summit 2022 セッションレポート(AD)

DevOps/SREチームの睡眠時間を守る! オンコールのベストプラクティス

【B-3】オンコールチームのベストプラクティス

  • このエントリーをはてなブックマークに追加

睡眠時間は特に大切! オンコールのマナーと期待されること

 オンコールチームには、夜間でも対応を迫られることがある。その際、企業や管理者はマナーを守る必要がある。以下にて、オンコールチームの行動に関するベストプラクティスも紹介する。

従業員に配慮したオンコール

 夜間にオンコール勤務に就くメンバーの睡眠時間に配慮することは、何より大切なマナーである。出勤要請を受けて徹夜したメンバーや数時間しか寝てないメンバーなどには、翌日の出勤時間を遅らせることを認めるルールを策定しておきたい。具体的には、以下のような対応が挙げられた。

  • シフトの変更を認める
  • 支援要請の通知を早めに出す
  • 睡眠時間を確保する
  • 燃え尽き症候群に注意する

チームで協力する

 オンコールのシフトを組む際は、勤務時間や夜間・休日出勤などに偏りがないように公平性を重んじた分担を留意する必要がある。燃え尽き症候群の予防法にも繋がる。オンコールに期待されることや行動規範を伝えておくことも重要だ。

時間管理

 人間には限界があるため、オンコール勤務期間は、通常の生産性を期待できない。そのため、オンコール担当週は、通常の仕事量を減らす必要がある。例えば、担当するチケット対応数を減らす、ドキュメントやバグ修正、自動化管理などの事務的な作業を担当するなどの対策などが考えられる。

オンコールチームが明日から行える、実装面に関するベストプラクティス

 ここまでは、文化やマナーなど、組織に求められる部分について語られた。Mandi Walls氏は終盤に、オンコールチームが明日からでも始められる、実装面のベストプラクティスについても紹介してくれた。

アラートの精査

 まず可能な限り、アラートを精査して抑制すること。通知するのは重要なアラートのみとし、些細な問題、重要度の低い問題、修正不可能な問題は通知しないことを徹底させる。特に夜中にアラートでメンバーの睡眠を邪魔しないようにするためにも、可能な限り自動化することが勧められた。

 「PagerDutyでもプラットフォーム全域からアラートが発信されていますが、人間に通知されるアラートの約20%は5分以内に解決されています。5分以内ということは、デバッグは行われていません。そのような問題は自動修復するべきです。再起動や容量の追加などで解消されるので、自動化しましょう」

 また、常にすべてのドキュメントとソフトウェアを最新状態に保つこと。そして、外部との依存関係がある場合は、そのベンダーの連絡先や関係性、ライセンス期限、支払い時期、その依存関係が該当システムに影響を与えた場合に起こり得る事柄について、あらゆる情報を全員に伝えることも推奨された。

プロジェクトの優先順位付け

 初心者はまずは、最も安定しているサービスから始めること。長い間提供されており、問題なく稼働しているサービスから慣れていくことが大切だ。次に、顧客の売上に直結するサービスやその機能など、自社サービスポートフォリオの中で、最も重要なサービスを優先することが重要となる。また、自分が担当しているシステムの優先度を上げすぎることも悪影響を及ぼす可能性があるため、留意したい。

従来型のNOCの活用

 従来型のネットオペレーションセンター(NOC)がある場合は、活用すべきである。すでに24時間365日体制で対応しているチームがあれば、オンコールチームに代わり、ランブックの実行、基本的なトリアージや自動診断などの初期対応を担ってもらうことができる。

 また、NOCにインシデントコマンダーや顧客窓口などのインシデント管理サポート役を担ってもらい、オンコールチームの負担を軽減することも可能である。

柔軟なモデル

 忘れがちなことであるが、オンコールはとても柔軟で調整可能なもの。例えば、オンコールに1週間単位という決まりはない。チームや仕事のスケジュールに合わせて区切ることもできる。「PagerDutyでは担当を交替する曜日はチームごとに異なる」とMandi Walls氏は語る。

 「担当者間の引き継ぎを考え、交代は平日に行うべきです。PagerDutyには、その上位チームとも呼べるチームもあり、そのオンコールスケジュールは全く異なります」

 PagerDutyのインシデントコマンダーのオンコール勤務時間は1回あたり48時間。交代は午前11時に行われる。勤務時間に引き継ぎが行われるため、状況を理解してからオンコール勤務に入り、その後48時間、責務を担うことができる。必ず日中の時間帯にあるチームが主な責務を担う「フォロー・ザ・サン」モデルを採用しているのだという。

 最後にMandi Walls氏は以下のように語り、セッションをまとめた。

 「オンコールは信頼性を高めるための取り組みですが、人間には仕事以外の生活もあります。睡眠を優先させましょう。そのためには柔軟に対応し、担当者に寄り添うこと、期待されることや責務を明確にすることが非常に重要です」

この記事は参考になりましたか?

  • このエントリーをはてなブックマークに追加
Women Developers Summit 2022 セッションレポート連載記事一覧

もっと読む

この記事の著者

馬場 美由紀(ババ ミユキ)

 エンジニアとテクノロジーが好きな編集・ライター。エンジニア向けキャリアサイト「Tech総研」「CodeIQ MAGAZINE」、Web技術者向けの情報メディア「HTML5 Experts.jp」などでライティング、コンテンツディレクション、イベント企画などを行う。HTML5 開発者コミュニティ「h...

※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です

CodeZine編集部(コードジンヘンシュウブ)

CodeZineは、株式会社翔泳社が運営するソフトウェア開発者向けのWebメディアです。「デベロッパーの成長と課題解決に貢献するメディア」をコンセプトに、現場で役立つ最新情報を日々お届けします。

※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です

【AD】本記事の内容は記事掲載開始時点のものです 企画・制作 株式会社翔泳社

この記事は参考になりましたか?

この記事をシェア

  • このエントリーをはてなブックマークに追加
CodeZine(コードジン)
https://codezine.jp/article/detail/16929 2022/12/15 12:00

おすすめ

アクセスランキング

アクセスランキング

イベント

CodeZine編集部では、現場で活躍するデベロッパーをスターにするためのカンファレンス「Developers Summit」や、エンジニアの生きざまをブーストするためのイベント「Developers Boost」など、さまざまなカンファレンスを企画・運営しています。

新規会員登録無料のご案内

  • ・全ての過去記事が閲覧できます
  • ・会員限定メルマガを受信できます

メールバックナンバー

アクセスランキング

アクセスランキング