SHOEISHA iD

※旧SEメンバーシップ会員の方は、同じ登録情報(メールアドレス&パスワード)でログインいただけます

CodeZine編集部では、現場で活躍するデベロッパーをスターにするためのカンファレンス「Developers Summit」や、エンジニアの生きざまをブーストするためのイベント「Developers Boost」など、さまざまなカンファレンスを企画・運営しています。

Developers Summit 2024 セッションレポート

『システム障害対応 実践ガイド』著者が語る、1000件の事例から学んだ障害対応のベストプラクティス

【15-D-7】7年間1000件の障害事例からわかった、障害対応の改善ポイント~協同で変えるシステム障害対応とは?~

  • X ポスト
  • このエントリーをはてなブックマークに追加

運用担当・保守担当の権限移譲でエスカレーションを効率化

 2つ目の事例は、障害対応の改善だ。こうした検討は「重要だが緊急ではないタスク」とされ、後ろ倒しにされがちだ。そこを乗り越えて継続的に改善した例として、野村氏は金融や通信・官公庁のようなミッションクリティカルに運用される大規模システムの例を挙げた。

 今回のケースでは、運用担当が100名規模、開発兼務の保守担当がおよそ20名×25チームの500人程度という体制でシステムが運用されていた。役割分担としては、エラーメッセージによるアラートをエスカレーションするのが運用担当、対応を要するかどうかを判断するのが保守担当という形だ。

 なおかつ、エラーメッセージの基準を決められるのは保守担当側で、不要メッセージを停止する場合、リリース判定に2週間かかるという前提があった。そのため運用担当が「不要なメッセージを止めてほしい」と依頼しても、業務のつらさが“他人事”であるうえに対応が煩雑なことから改善が進まないというジレンマがあった。

 実際にこの事例においては月間3万件のアラートが鳴っており、鳴りっぱなしのパトランプを止めてメッセージを確認し、エスカレーションの電話をかける専任担当者が置かれるほどだった。しかも、かけた電話はほとんど「対処不要」。ときには「こんなメッセージで夜中に電話してくるな!」と叱責され、運用担当者が消耗する事態も起きていた。

「意味のない仕事」で無駄な工数が増えていた
「意味のない仕事」で無駄な工数が増えていた

 この対立構造を解消すべく野村氏は、保守担当がすべてを担う形へと役割分担を変更した。「自分が楽になるためなら、人は改善サイクルを回せる」というのがその理由だ。

 ただし単に権限移譲を進めるのではなく、運用のスリム化も同時に行なった。具体的には、従来2週間かかっていた不要メッセージの設定を簡単にしたうえで、エスカレーションの電話も自動化。保守側のタスクが増えることには多少の不満も出たものの、ふたを開ければ「そこまで揉めなかった」といい、見事対立解消に成功した。

 権限移譲がスムーズに進んだ背景には、地道な根回しがあった。野村氏は全25チームを回り、現状を説明したうえで登録の方法を教え、納得できない担当者には個別に説得して協力を依頼したのだ。その結果、権限の一本化から1ヶ月でアラートの9割が不要だったとわかり、運用が効率化したというから驚きだ。

 さらに野村氏は、「大切なのは、改善が継続していること」と強調する。よくあるパターンとして、「大幅な削減には成功したものの、その後のメンテナンスが続かず、再びアラートが増えていく」ことがあるという。しかし今回の事例では、強い働きかけもなくアラートの最適化が進み続けている。

対立を解消し、劇的なアラート削減に成功
対立を解消し、劇的なアラート削減に成功

 改善が継続している理由は、権限移譲が保守側にも大きなメリットをもたらしたことだ。保守担当としても、夜中に不要な電話がかかってくる状況は望ましくなかった。権限移譲とエラーメッセージの削減が成功したことで、「業務改善を進めれば自分たちが楽になる」というマインドが育ち、継続的な取り組みが可能になったのだ。

大規模障害は「エンドユーザーのために」クライアントと協力して乗り越える

 最後に、野村氏は「協同で変えるシステム障害対応」について語った。障害発生時には「障害を起こしたチームが悪い」という雰囲気が漂い、別のチームがあまり積極的に関わってくれないこともある。この空気をなんとか打ち破り、助け合いながら障害対応に当たってほしいというのが野村氏の望みだ。

 「これはユーザー企業との関係においても言えることだ。障害を起こした開発会社がすべて対処すべきだと切り捨てるのではなく、可能な限り力を貸していただくことが、エンドユーザーへの影響を最小化する」。

ITサービスは社内外の多くの関係者で開発されるからこそ、障害対応でも協力を
ITサービスは社内外の多くの関係者で開発されるからこそ、障害対応でも協力を

 「開発というものは、保守運用の担当だけでなく、企画も営業もクライアントも、皆を巻き込んで行うものだ。これからは、“協同で変える”という考え方をスタンダードにしていきたい」。野村氏はそう語り、講演を締めた。

この記事は参考になりましたか?

  • X ポスト
  • このエントリーをはてなブックマークに追加
Developers Summit 2024 セッションレポート連載記事一覧

もっと読む

この記事の著者

中島 佑馬(ナカシマ ユウマ)

 立命館大学卒業後、日刊工業新聞社にて経済記者として勤務。その後テクニカルライターを経て、2021年にフリーランスライターとして独立。Webメディアを中心に活動しており、広くビジネス領域での取材記事やニュース記事、SEO記事の作成などを行う。

※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です

山出 高士(ヤマデ タカシ)

雑誌や広告写真で活動。東京書籍刊「くらべるシリーズ」でも写真を担当。

※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です

CodeZine編集部(コードジンヘンシュウブ)

CodeZineは、株式会社翔泳社が運営するソフトウェア開発者向けのWebメディアです。「デベロッパーの成長と課題解決に貢献するメディア」をコンセプトに、現場で役立つ最新情報を日々お届けします。

※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です

この記事は参考になりましたか?

この記事をシェア

  • X ポスト
  • このエントリーをはてなブックマークに追加
CodeZine(コードジン)
https://codezine.jp/article/detail/19773 2025/01/21 11:00

おすすめ

アクセスランキング

アクセスランキング

イベント

CodeZine編集部では、現場で活躍するデベロッパーをスターにするためのカンファレンス「Developers Summit」や、エンジニアの生きざまをブーストするためのイベント「Developers Boost」など、さまざまなカンファレンスを企画・運営しています。

新規会員登録無料のご案内

  • ・全ての過去記事が閲覧できます
  • ・会員限定メルマガを受信できます

メールバックナンバー

アクセスランキング

アクセスランキング