エンジニアの負荷を下げつつ、サービスを提供し続けるために
PagerDutyの活用によって、アラートの絞り込みによる効率化が実現した。1日に対応するべきアラートはリリース状況などによって波があるが、平均すると3〜4件程度となっている。オンコール当番制度もあって平均確認時間(MTTA)は日中では1分以内となっており、 平均修復時間(MTTR)についても暫定対応は1営業日程度に抑えている。
川崎氏は、PagerDutyの効果について次のように評価した。「当番制にしていなければ、誰がそのアラートを拾いに行くかをためらってしまい、MTTAは10分前後かかっていてもおかしくないと思います。今はみんな意識高く実直に対応していますので、MTTA、MTTRともに短くなっています。
さらに、エンジニアにかかる負担はかなり下がりました。24時間・365日の監視運用体制を構築したら膨大なコスト増加に繋がりますし、本当にPagerDutyは頼りにしています。経営陣も、サービスを止めずに提供するという、お客様にとって当たり前のことが実現できていることについて非常に満足しています」
今後もアラートの数を減らすなど、運用効率を高めるためにPagerDutyでの運用に磨きをかけていく。まだ利用していないインシデント分析の機能を使ってリリースの品質や基盤の不安定さを確認し、インシデントの再発を抑制するといった使い方も検討している。
2021年からサイバーセキュリティも担当するようになった川崎氏は、セキュリティインシデント対応におけるPagerDutyの活用も視野に入れている。そして、さらに中長期的にはシステムの可用性を高めるためのマルチクラウドにも挑戦する構想を抱く。
今後PagerDuty側に期待することについて、川崎氏は次のように述べた。
「アラートをトリアージする機能を機械学習的なアプローチで実現できたらと思っています。アラートの傾向や過去の対応履歴から対処法をサジェストしたり、第三者の視点からアドバイスをしていただけると、私たちの運用がもっと楽になると思います。
インシデント分析の機能についてはあまり使いこなせていないので、効果的な使い方のハンズオンコンテンツがあれば活用したいですし、勉強会やユーザー会などの交流の場があれば参加したいなと思います。今後も、PagerDutyのみなさんと当社の二人三脚でいいインシデント対応を実現していきたいと考えています」
デジタルオペレーションの現状
PagerDutyのWebサイトでは、インシデント対応などのリアルタイム作業の増加が、どのように技術チームに負担を強いているのかを明らかにした、「デジタルオペレーションの現状」のeBookを公開しています。ぜひ、本記事と併せてご参照ください。