インデントを一元管理できるPagerDutyの3つの機能
セッション冒頭、PagerDuty, Inc ソリューションズ コンサルタント 大塚清尊氏は、PagerDutyに関して「日々発生する大量のアラートの中から、インシデントを定義づけし、誰が何を対応するかを素早く明確化することが可能になっています」と紹介した。
PagerDutyは、2007年米サンフランシスコで創業された企業で、従業員1100名以上、3カ国7拠点を持ち同名のツールをSaaSで提供している。ユーザーは、1万4000社、70万ユーザー、80カ国に存在し、Fortune 100の半数以上の企業が利用している。500以上の監視ツールや障害検知ツールなどと容易に統合でき、インシデントの管理を一元化することができる。
PagerDuty導入によって、インシデントによるダウンタイムの減少、インシデント対応の効率化、エスカレーションの自動化、ビジネスインパクトの見える化によるリスクの低減などの効果が期待できる。
PagerDutyの機能は大きく3つに区分できる。1つ目の「イベント・インテリジェンス」は、クラウドやコンテナ、ネットワーク、セキュリティといったさまざまな監視点から発信されるアラートを整理し、クリティカルなものかそうでないかを判断するなど、アラートの一元管理を可能にする。また、1つのインシデントから発生される複数のアラートを集約できるので、重複してノイズとなったアラートの低減も可能だ。これで、管理者が早急に対応すべきインシデントに効率的に向き合うことができる。
2つ目の「オンコール管理」は、整理されたインシデントをそのときの適格な担当者に連絡する機能。連絡は携帯電話、SMS、Eメール、プッシュ通知、チャット通知などを選ぶことができる。もし最初に一報を送信した担当者が不在の場合は、オンコール管理内の「エスカレーション自動化」が働き、インシデントは自動的に次の人にエスカレーションされる。その場に合わせた適格な管理者やエスカレーション先は、オンコール管理内の「スケジュール管理」が把握しているので、連絡先は自動で設定される。例えば、平日夜間と平日日中でオンコールのメンバーを変えている場合は、時間になるとPagerDutyが自動的にシフトを切り替えて連絡先を変える。
また、オンコール管理内の「アクティビティの管理」では、インシデント発生から対応する担当者が割り当てられるまでの経緯、その後の対応の経緯といった一連の流れを、時系列のアクティビティとしてインシデント情報に記録できるので、どう対応したかの見直しも容易に行える。
3つ目の「インシデント・レスポンスの自動化」は、対応作業のいろいろなケースを自動化するものだ。インシデントが発生した場合、一般的にはサーバー状態確認、情報収集、場合によっては再起動などの作業が発生するが、こうした作業をPagerDutyからワンクリックで簡単に実行できる。
加えてアラートの量、担当者割り当てまでの時間、解決に要した時間といったインシデント対応のパフォーマンスを保持できるので、月次や週次でオンコールされた担当者やチームのパフォーマンスなどを管理できる。大塚氏は「PagerDutyは、インシデントのトリガー発生時から解決までを効率化できる、エンドツーエンドのいろいろな場面で使えるツールです。また、それらのパフォーマンスをしっかりとメトリックとして保持できるので、さらなる効率化を図ることも可能です」と述べた。