最強のチームは『障害』を糧にする　インシデント管理入門以前

更新日: 2026/04/23
公開日: 2026/04/23

ポスト

学びのチャンスという発想の転換

　インシデントは学びの宝庫です。上手く活用することで、個人としても組織としても大きく成長することができます。なので、強いチームは必ずインシデントを振り返り、学びに環流する仕組み作りとマインドセットを持ち合わせています。

恐怖の対象を学びの源泉に変える思考のスイッチ

　障害は起きてはいけないもの。多くの組織がこの前提で動いています。障害が起きれば誰かが叱られ、報告書を書かされ、再発防止策が積み上がる。減点方式の世界では障害は忌むべき存在であり、関わった人間は不名誉を背負います。

　しかし、考えてみてください。現代のシステムを取り巻く環境はとても複雑です。ソフトウェアアーキテクチャもインフラも複雑化する一方。そのような時代において、障害は起きるかどうかの問題ではなくいつ起きるかの問題です。システムにおいて100%の可用性は理論上も実践上も不可能であり、障害ゼロを目指すこと自体が非現実的な目標設定と言えます。

　そこで、発想の転換をしてみましょう。システム障害とは、システムが自らの弱点を教えてくれる機会として捉え直すのです。医者が健康診断の異常値を悪いニュースではなく早期発見の好機と見るように、SREは障害をシステムの健康診断結果として読み解くのです。

　この思考のスイッチが入ると、不思議なことが起きます。今まで見えなかったシステムの依存関係、想定外のトラフィックパターン、ドキュメントに書かれていない暗黙の前提。障害はこれらを一瞬で明らかにしてくれます。恐怖の対象が、知の源泉に変わるのです。

やらかしを知恵に変える、正しいポストモーテムの作法

　障害対応が終わりサービスは復旧、ユーザーへの影響もなくなりました。いったんインシデントは解消したという形になります。これで一安心･･･と考えたいところですが、ここからが本番です。記憶が新しいうちに、ポストモーテム（事後検証）を行いましょう。

　ポストモーテムは、インシデント管理において最も価値のある取り組みです。ポストモーテムには、最低限以下の要素を含めます。

インシデントの概要（何が起き、誰に影響があったか）
タイムライン（検知から復旧までの時系列）
影響範囲（ユーザー数、SLOへのインパクト）
根本原因の分析
アクションアイテム（改善策とオーナー、期限）

　そして学びの共有（今回の経験から得た教訓）です。

　インシデント収束から48時間以内に関係者全員で振り返りを行ってください。時間が経つと記憶が曖昧になり、結局よくわからなかったで終わってしまいます。

報告書を犯人捜しの道具にしない

　多くの組織で、ポストモーテムが犯人捜しの場になってしまっています。誰がオペレーションミスをしたのか、誰がこのデプロイを承認したのか、なぜレビューで見落としたのか。こうした問いは人を萎縮させ、次の障害を隠蔽する文化を生みます。

　ポストモーテムの第一原則はBlameless（誰も責めない）です。これは責任を問わないという意味ではありません。個人の責任ではなくシステムの責任として捉えるという意味です。あるエンジニアが誤った設定をデプロイしたとして、問うべきはなぜ彼が間違えたかではなく、なぜシステムが誤った設定のデプロイを許したかです。

再発防止策が新たなトイルを生むのはなぜか？本当の根本原因へのアプローチ

　再発防止策として、次のようなアクションアイテムに見覚えはないでしょうか？

デプロイ前にダブルチェックする
確認項目をチェックリストに追加する

　この手の人間の注意力に依存する対策は、一時的には効果があるように見えても、長期的にはトイル（反復的な手作業）となっていきます。チェックリストが10項目から50項目に膨れ上がるとどうなるか。そう、誰も真面目に確認しなくなるのです。結果として、同種の障害が再発します。

　本当の再発防止策は、人間の注意力ではなく仕組みを作ることです。たとえば設定ミスを防ぐなら、バリデーションを自動化する。誤ったデプロイを防ぐなら、カナリアリリースを導入する。こういった形で、人間が忘れることを前提に、忘れても安全な仕組みを作ることが大切です。

　根本原因の分析においては5つのなぜが有名ですが、これを機械的に適用するだけでは不十分です。システムの障害は多くの場合、単一の根本原因ではなく複数の要因が重なって発生します。根本原因は一つだという思い込みを捨て、複数の要因をマッピングするアプローチが有効です。

障害を共有したエンジニアが、チームで最も称賛される文化をどう作るか

　筆者は普段からインシデント管理の啓蒙活動を行っています。そのため、SREやプラットフォームエンジニア、インフラエンジニアに対して勉強会を開いたり、記事やプレゼン発表を通じてポストモーテムの大切さを説いたりしています。これまで多くの発信をしてきましたが、ポストモーテムのような振り返りの取り組みに対して「そんなものは不要だ」という意見を聞いたことは一度もありません。誰もがウンウンと頷きながら「そうだよね、大事だよね」という反応をしてくださいます。

　一方で「ではポストモーテムを実践している人はいますか」と聞くと、驚くほど手があがりません。なぜみんな必要性は理解しているのに、実践できないのでしょうか。

　その理由はシンプルで、面倒だからです。

　ポストモーテムを作るのはとても手間と時間がかかります。アラートやシステムログ、チャットログを集め、タイムラインにまとめ、関係者を集めて事実確認を行い、再発防止に向けた策を考えていく。ただでさえもインシデント対応で疲れているのに、さらに疲れる取り組みをしなければいけない。結果として、業務の忙しさを理由に行わないというケースが多いのです。

　だからこそ、ポストモーテムを書いたエンジニアは称賛されるべきです。

　たとえばベストポストモーテム賞のような取り組みを組織全体でやってみるのも良いかもしれません。一見するとふざけているように思えるかもしれませんが、ポストモーテムを社内で広く共有し、他チームの学びとして活用する仕組みを作ることはとても効果的です。自チームの障害が、他チームの予防策になるということは、障害の経験が組織の知恵として蓄積さてれていくことを意味します。

　ポストモーテムの共有を称賛する文化を作るには、まずリーダーが率先して自らの失敗を共有することです。テックリードやマネージャーが「自分はこういうミスをした。ここから学んだことはこれだ」と公の場で語る。これだけで、チームの心理的安全性は劇的に向上します。障害を隠す行為が無難とされ、障害を共有する行為がリスクとされる組織では、学習は生まれません。

　障害を共有したエンジニアがチームで最も称賛される。この文化が根付いたとき、エンジニアは障害を隠したいものではなく、誇れるものとして捉えるようになります。

このシステムは、誰のものか

　ここまで仕組みとマインドセットの話をしてきましたが、最後に欠かせないもう一つのピースがあります。それは、このシステムは自分たちのものだというオーナーシップの意識です。

　どれほど優れたオンコール設計やポストモーテム文化があっても、運用を任されているだけのチームには、障害から学ぼうという熱が生まれません。仕組みは回るかもしれませんが、すぐに形骸化します。

　オーナーシップとは、精神論ではありません。設計の意図を知っていること、なぜこのアーキテクチャを選んだかを語れること、障害が起きたときに自分たちのシステムが弱点を見せたと感じられること。その実感があってはじめて、疲弊しない仕組み作り、チームワーク、インシデントからの学びの3本柱は血の通った実践になります。

平穏な夜は、工夫と努力で手に入れよう

　本記事で解説したことに、特別な技術やツールは一つも含まれていません。SLO、エスカレーション、インシデントコマンダー、ポストモーテム。これらはすべて考え方であり文化です。

　しかし考え方を変えるのは、ツールを導入するよりもはるかに難しいことです。なぜなら、組織の慣性に逆らうことだからです。障害＝悪という減点方式の文化を、障害＝学びという加点方式に変えるには、一人のエンジニアの意志だけでは足りません。チームの合意、マネジメントの理解、そして最初の一歩を踏み出す勇気が必要です。

　まずは小さく始めてみてください。たとえば、次にインシデントが起きたとき、犯人を捜すのではなく、なぜシステムがこの障害を許容したのかと問いかけてみるのはどうでしょうか。あるいは、一人でも「ポストモーテムを書こう」と声を上げてみるのはどうでしょうか。

　その小さな問いかけが、チームの文化を少しずつ変えていきます。

　平穏な夜は、運良く障害が起きないことで手に入るのではありません。障害が起きても平穏でいられる仕組みと文化を、自分たちの手で作り上げていくことが大事です。

書籍『PagerDutyによるインシデント管理実践入門』を活用した、組織変革の第一歩

　この度、筆者をはじめとしたPagerDutyのメンバーで『PagerDutyによるインシデント管理実践入門』を執筆しました。本記事で解説したインシデント管理の考え方について、PagerDutyを活用しながらどのように体系的に取り組んでいくかを解説しています。

Chapter 1 インシデント管理の必要性とPagerDutyの役割
Chapter 2 PagerDutyの基礎
Chapter 3 検知　イベントをPagerDutyに連携する
Chapter 4 トリアージ　一次対応を自動化する
Chapter 5 動員　担当者を確実にアサインする
Chapter 6 修復　組織で連携し、原因特定と復旧を行う
Chapter 7 学習　インシデント対応から学び、改善する
Chapter 8 PagerDuty Advanceの活用
Chapter 9 運用の成熟度を上げるには
Chapter 10 サポート活用ガイド

　インシデントの始まりから終わりまで、エンドツーエンドでどのように取り組んでいくかを基礎から丁寧に解説しています。よろしければ是非ご覧ください！

Amazon　 SEshop　その他

PagerDutyによるインシデント管理実践入門

著：草間一人、著：野口貴史、著：堀明子、著：葛智紀、著：胡子昇一朗、著：米崎誠矢、著：山崎淳一、著：山田索、著：新井達哉、著：石井潤一、著：太田剛志
発売日：2026年04月17日（金）
定価：4,400円（本体4,000円＋税10%）

本書はPagerDutyを活用した、障害対応の実践的解説書です。単なるツールの操作説明にとどまらず、障害対応の現場で培われたICSの概念や、SREの原則に基づいた組織としての対応力を高める方法についても解説しました。「検知→トリアージ→動員→解決→学習」というインシデントライフサイクル全般を網羅し、アラートノイズの削減、オンコール負担の軽減、AIを活用した最新の自動化手法まで解説しています。

この記事は参考になりましたか？

印刷用を表示

ポスト

アプリケーション開発の最新トレンド連載記事一覧: 最強のチームは『障害』を糧にする　インシデント管理入門以前

OpenAI「Codex」週間300万ユーザー突破——「ハーネスエンジニアリング」が示すA...

なぜ検知できなかったのか？ Axiosを襲った「遅延型」サプライチェーン攻撃の技術的解析

もっと読む

この記事の著者: 草間一人（jacopen）（クサマカズト）

　PagerDuty JapanのProduct Evangelist。一般社団法人クラウドネイティブイノベーターズ協会の代表理事も務めており、クラウドネイティブ技術やPlatform Engineeringの普及に貢献している。Platform Engineering MeetupやCloudNa...

※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です

この著者の最近の執筆記事