アラートの嵐で疲弊していた、AWSエンジニアのあるアイディア
2009年創業の米PagerDuty。サイバー攻撃や故障・障害からインフラを守り、安定稼働を実現することがますます重要となる中で、創業者の元AWSエンジニアたちはサイバー攻撃やインフラ障害などのインシデントが発生するたびにPager(ポケベル)で呼び出され、対応に追われる日々を送っていた。しかし、通知のすべてが対応を必要とするものではなく、大半はやり過ごしても問題のないものだった。アラートの嵐で無駄に疲弊するエンジニアたちを救い、本当に対応が必要なインシデントに注力できるようにするには、どうすればよいのだろうか。自らの経験を通じて生まれたアイディアは今、PagerDutyインシデント対応ソリューションとして、グローバルで2万社以上が導入するまでとなった。日本法人は2022年5月に設立したばかりだが、すでに330社以上が同社ソリューションを活用しているという。
インシデントについて、PagerDutyの山田索氏は「ITシステムの障害を引き起こしている原因や、近いうちに障害となりうる問題など、何らかの対応が必要な課題」と定義。インシデント以外は自動化で対処し、専門家の目が必要なものだけ分析に振り分けることができれば、迅速かつ効率的なインシデント対応が実現可能で、将来問題になりそうな芽も摘むことができるとし、それをサポートするのがPagerDutyインシデント対応ソリューションだと述べた。
インシデント対応は、主に「検知」「トリアージ」「動員」「協力/解決」「学習/予防」の5つのフェーズに分けることができる。PagerDutyでは、New RelicやDatadog、Splunkなどのオブザーバビリティツールや統合ログ管理ツールと連携してイベントを受信。インシデント担当者による対応が不要なものは自動で処理し、必要なものは適切な担当者に通知。過去の類似インシデントや直近のコード変更など解決のヒントを提示し、対応後は再発防止に向けた事後分析やチーム内外との知見の共有などをサポートする。