個人でのインシデント対応はやりがいがあるものの、組織の成長にはつながらない
PagerDutyは、インシデント管理の効率化を実現するプロダクトである。インシデントを検知して、最適な担当者に通知し、その解決のヒントを提示する。これにより、リソースを最小限に抑えつつ問題の迅速な解決を図ることができる。さらにインシデントの対処のみならず、将来的なインシデントの予防にも貢献し、組織の運用効率の向上を目指すものだ。
プレゼンテーションの冒頭で草間氏は「現代はインシデントコマンダーという役割の重要性が高まっています」と語った。Web系システムの運用エンジニアであるSRE(Site Reliability Engineering)という職種は広く認知されているが、これはGoogleが2016年に関連する本を出版した影響がある。しかし、インシデントコマンダーという職種は今のところあまり知られてないようだ。
草間氏は「個人的には、今年以降インシデントコマンダーがSREと同様に大きな注目を浴びるようになり、それ自体が重要なポジションとなると確信しています」と述べた。
これまで草間氏は、スタートアップ企業でのオールラウンダーから、特定の通信事業者でのクラウドサービス開発、PaaSのリードエンジニアなど幅広いキャリアを経験してきた。特に、PaaSの開発においては、ロードバランサーや認証・認可機能など、周辺機能の自主開発も含めた幅広い技術的課題に取り組んできた。
そこでは開発だけでなく運用にも関わり、アラート対応から障害の切り分け、問題解決まで、24時間態勢での対応が求められる環境で働いてきた。たとえ深夜であってもアラートに迅速に反応し、頭をフル回転させて障害を解決する能力が身についた。
草間氏は、これらの経験がエンジニア個人としては非常に貴重であったとしながら「チームやサービス全体としてみた場合、このアプローチが必ずしも最適だったわけではない」と振り返る。
個人のスキルに頼るのではなく、体制を整えていればさらに迅速に問題を解決できたかもしれないし、思い込みによる誤った方向への調査に時間を浪費していた可能性もある。場合によってはサービスが長時間停止していた可能性もあり、判断ミスによる二次災害のリスクも否定できない。さらに、組織としての成長にも疑問が残る。このような状況は多くの組織にも当てはまるはずだ。