SHOEISHA iD

※旧SEメンバーシップ会員の方は、同じ登録情報(メールアドレス&パスワード)でログインいただけます

CodeZine編集部では、現場で活躍するデベロッパーをスターにするためのカンファレンス「Developers Summit」や、エンジニアの生きざまをブーストするためのイベント「Developers Boost」など、さまざまなカンファレンスを企画・運営しています。

話題のあのサービスのインフラ運用に迫る! インシデント管理ツール「PagerDuty」活用(AD)

オンプレミスにもPagerDutyを活用! MSPからの移行でMTTA短縮化とコスト削減を実現したオイシックス・ラ・大地

  • X ポスト
  • このエントリーをはてなブックマークに追加

オンコール担当者のウェルビーングと助け合い文化を実現する「優しさのOverrides」機能

 現在、各チームの要求に対応するPagerDutyの最適化が行われているが、それに至るまでには時間を要した。そのきっかけは2021年7月に実施したメインのデータベース移行だ。移行に伴い、より細かなイベントを監視するためモニタリングツールを変更した。すると監視対象が広範囲になり、アラートの発報が増えてしまった。そこで、SREセクションでは発生するインシデント情報を蓄積しながら地道に最適化を行っていった。

 「オンコール担当は、夜中に2〜3回電話で起こされることもありました。週に何度もあるとかなりきつくなります。なんとか改善したいという思いで取り組みました。毎週月曜にチームミーティングを行い、集まったインシデントを一つひとつ見ながら、どう処理するかを話し合って設定していきました。半年から1年弱の期間はかかりましたが、夜中に起こされる回数も激減しました」(林氏)

 PagerDutyでの自社運用に移行して訪れた変化に、通知の柔軟なコントロールによる恩恵がある。従来は電話とメールだけだったが、PagerDutyのスマートフォンアプリで個々のメンバーが柔軟に設定できるため、担当者のストレスが軽減された。林氏はPagerDutyアプリで重宝している機能として「Snooze」「Urgency Use Case:Support Hours」「Overrides」を挙げた。

 Snoozeは、状況に応じてインシデントを一定期間保持し、対応を後回しにできる機能。移動や会議などですぐに対応できないときや、サイトの負荷がかかることがわかっている時間帯、業務時間外で翌日対応すればいいようなときに使う。Urgency Use Case:Support Hoursは、対応可能な日時を指定して、その時間帯は通知に気付きやすくして、それ以外の時間帯は控えるというもの。

 林氏が最も気に入っている機能がOverrides。これは、オンコールの担当を上書きする機能だ。林氏は「週次のオンコール担当が割り当てられていても、前日の深夜に起きて対応したようなメンバーがいたら、その代わりにほかの人を割り当てることができます。私はこれを『優しさのOverrides』と呼んでいます。オンコールの負担をチームで分散できる素晴らしい機能です」と説明した。

PagerDutyをさらに使いこなして、インシデント対応の自動化を目指す

 オンプレミスとパブリッククラウドのハイブリッド環境でシステムを運用しているオイシックス・ラ・大地は、従来アウトソースしていたインシデント対応をPagerDutyによって社内のメンバーで対応できるようにした。以前は週に何度も深夜対応しなければならないこともあったSREチームであったが、細やかな最適化の甲斐あって深夜対応は月に1度程度まで減った。

 林氏は「PagerDutyはオンプレミスやクラウドに関係なく、通知先を設定して最適化できるツールです。メンバーのみんなも『オンコール対応が怖くなくなった』と言っています」と成果を語った。

 SREチームの今後の展望として、林氏は、インシデントの自動回復にチャレンジしたいと答え、PagerDutyへの期待を込めて次のようにコメントした。

 「インシデントが起きた際、自動的に修復されるのが理想です。PagerDutyが自動診断や自動修復などができるジョブスケジュールツールのRundeckを買収したので、その機能を使ってみたいと思います。たとえば、当社のシステムはJavaで開発されていて、メモリ容量が足りず処理が止まってしまったときに再起動する必要があるのですが、これを自動化できるといいなと思っています。AI機能も気になっていて、これまでのアラートの傾向から自動で判断して処理をするなど、メンバーの負担を減らす機能も使ってみたいです」(林氏)

この記事は参考になりましたか?

  • X ポスト
  • このエントリーをはてなブックマークに追加
話題のあのサービスのインフラ運用に迫る! インシデント管理ツール「PagerDuty」活用連載記事一覧

もっと読む

この記事の著者

森 英信(モリ ヒデノブ)

就職情報誌やMac雑誌の編集業務、モバイルコンテンツ制作会社勤務を経て、2005年に編集プロダクション業務やWebシステム開発事業を展開する会社・アンジーを創業。編集プロダクション業務においては、IT・HR関連の事例取材に加え、英語での海外スタートアップ取材などを手がける。独自開発のAI文字起こし・...

※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です

関口 達朗(セキグチ タツロウ)

フリーカメラマン 1985年生まれ。東京工芸大学卒業後、2009年に小学館スクウェア写真事業部入社。2011年に朝日新聞出版写真部入社。2014から独立し、政治家やアーティストなどのポートレート、物イメージカットなどジャンルを問わず撮影。2児の父。旧姓結束。趣味アウトドア。

※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です

CodeZine編集部(コードジンヘンシュウブ)

CodeZineは、株式会社翔泳社が運営するソフトウェア開発者向けのWebメディアです。「デベロッパーの成長と課題解決に貢献するメディア」をコンセプトに、現場で役立つ最新情報を日々お届けします。

※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です

【AD】本記事の内容は記事掲載開始時点のものです 企画・制作 株式会社翔泳社

この記事は参考になりましたか?

この記事をシェア

  • X ポスト
  • このエントリーをはてなブックマークに追加
CodeZine(コードジン)
https://codezine.jp/article/detail/17356 2023/03/22 12:00

おすすめ

アクセスランキング

アクセスランキング

イベント

CodeZine編集部では、現場で活躍するデベロッパーをスターにするためのカンファレンス「Developers Summit」や、エンジニアの生きざまをブーストするためのイベント「Developers Boost」など、さまざまなカンファレンスを企画・運営しています。

新規会員登録無料のご案内

  • ・全ての過去記事が閲覧できます
  • ・会員限定メルマガを受信できます

メールバックナンバー

アクセスランキング

アクセスランキング