SHOEISHA iD

※旧SEメンバーシップ会員の方は、同じ登録情報(メールアドレス&パスワード)でログインいただけます

CodeZine編集部では、現場で活躍するデベロッパーをスターにするためのカンファレンス「Developers Summit」や、エンジニアの生きざまをブーストするためのイベント「Developers Boost」など、さまざまなカンファレンスを企画・運営しています。

Developers Summit 2024 セッションレポート

『システム障害対応 実践ガイド』著者が語る、1000件の事例から学んだ障害対応のベストプラクティス

【15-D-7】7年間1000件の障害事例からわかった、障害対応の改善ポイント~協同で変えるシステム障害対応とは?~

  • X ポスト
  • このエントリーをはてなブックマークに追加

 IT領域の製品やサービスを提供する際、避けては通れない障害対応。簡単な修正対応で解決するものから大規模なサイバー攻撃まで、どのプロダクトにも障害のリスクは常に存在する。臨機応変な対応が求められると思われがちな障害対応だが、大手SIerにて過去12年間システム面のトラブルシューティングに対応している野村浩司氏は、「事前に行う小さな決定が、被害が拡大するかの分水嶺だ」と説く。野村氏が語る、障害対応時に意識すべきポイントや具体的な事例を見てみよう。

  • X ポスト
  • このエントリーをはてなブックマークに追加

増え続けるシステムエラー、障害対応の苦しさと課題

 これまで1,000件を超える障害に対応するなかで、「悲しい思いがたくさんあった」と振り返る野村氏。講演は、システム障害についての統計を示すことから始まった。

 野村氏によると、日本国内におけるシステム障害の年間損失額は5兆円にのぼるという。障害が起こりにくいと思われがちな金融庁への障害報告件数も1日当たり約5件となっており、「しっかりやっていても障害が起きてしまう」と、完全に防止することの難しさを強調した。

野村 浩司氏
野村 浩司氏

 野村氏の所属する組織でもオンコール対応を行っており、野村氏の赴任当時は24時間365日のサービスのため夜中でも電話を取らなければならず、セキュリティ室に入るまでもさまざまな手続きを経る必要があった。

 この状況を変えなければと強く感じたのが、クレジットカードのシステム障害だ。2015年9月に発生した大規模障害はニュースになり、SNSでも大きな話題となった。対応現場も大混乱の様相で、500名以上の人員が対処を行ったという。

土曜日の買い物時に発生しただけに、影響は非常に大きかった
土曜日の買い物時に発生しただけに、影響は非常に大きかった

 大規模障害を含む、過去1,000件以上の障害事例に対応してきた野村氏。障害の分析を行うなかで、以下の3点の「改善ポイント」に気づいたと語る。

  1. システム視点ではなくサービス視点
  2. 事象ではなくアクション
  3. 情報の量ではなく情報の質

過去7年間1000件の障害事例から導き出した3つの改善ポイント

 1つ目のポイント「システム視点ではなくサービス視点」に関して、この視点が欠けていることが、現場がどれだけ一生懸命やっていても、顧客から「情報が足りない」「情報が遅い」というクレームにつながってしまう理由でもあるという。SIerはシステムの視点から障害を語るが、ユーザー企業である顧客側にとっては、データベースが落ちたことによってどのサービスにどう影響するかが重要なのだ。

 この視点に立てない限り「“サービスを復旧するための”情報が足りない」「“サービスを良好な状態に戻すには”遅い」と言われ続けてしまう。野村氏は、「システムを直すことも大事だが、サービスの継続を考えることが重要」と述べ、事業者視点で情報共有することの必要性を示した。

SIerの立場ではなく、ユーザー企業の立場で話す
SIerの立場ではなく、ユーザー企業の立場で話す

 2つ目のポイント「事象ではなくアクション」については、障害として発生する事象は多岐にわたるものの、その復旧にかかるアクションは一定数に収束するというものだ。

 新しい技術が発見されると、それに伴って発生する事象はおのずと、これまでとは違ったものになる。そのため事象に着目すると、検討が「いたちごっこ」になる。

 一方で取れるアクションはというと、サーバーの再起動やWebへの障害情報掲載など、限定的なものばかりだ。したがってアクション起点で対応を検討することが、トラブルシューティングの速さを決定づけるという。

 「マネージャーやベテラン、つまりトラブルシューティングができる人というのは、『どんなアクションをとるか』をまず考え、必要な情報を集めて動き出せる人だ。起こりうる事象は無限だが、取れるアクションは有限だ」

「技術が進歩しても、とれる行動は限られる」
「技術が進歩しても、とれる行動は限られる」

 3つ目のポイントである「情報の量ではなく情報の質」とは、必要な情報のみをそろえて判断すること。障害発生時は、とにかく解決の糸口をつかみたいという焦りから「何でもいいから情報をくれ」とチームメンバーに要望しがちになる。しかし、こうした指示は情報を提供する側の負担が多くなるうえ、受け取る側も数多くの不必要な情報を受け取ることで混乱して動けなくなる恐れがある。とくに障害対応の経験が浅い若手などは、多くの情報に混乱して指示を待つことに終始してしまいがちだ。

 このような「指示待ち」によるロスを防ぐためには、トラブル時に取りうるアクションに対してどのような情報が必要なのかを事前に決めておくことが大切である。

 たとえば障害情報をWebに掲載する場合、はじめから正確な復旧見込みを出すのは困難なうえに時間がかかる。一方で、「30分以上かかる場合はWebに掲載する」というルールだけ決めておけば、必要な情報はおのずと限られ、対応も早くなるというわけだ。

むやみやたらと情報を集めるのではなく、アクションに必要な情報を適切に集めることが大切
むやみやたらと情報を集めるのではなく、アクションに必要な情報を適切に集めることが大切

次のページ
「事前に決めた小さなこと」が迅速な障害対応に貢献

この記事は参考になりましたか?

  • X ポスト
  • このエントリーをはてなブックマークに追加
Developers Summit 2024 セッションレポート連載記事一覧

もっと読む

この記事の著者

中島 佑馬(ナカシマ ユウマ)

 立命館大学卒業後、日刊工業新聞社にて経済記者として勤務。その後テクニカルライターを経て、2021年にフリーランスライターとして独立。Webメディアを中心に活動しており、広くビジネス領域での取材記事やニュース記事、SEO記事の作成などを行う。

※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です

山出 高士(ヤマデ タカシ)

雑誌や広告写真で活動。東京書籍刊「くらべるシリーズ」でも写真を担当。

※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です

CodeZine編集部(コードジンヘンシュウブ)

CodeZineは、株式会社翔泳社が運営するソフトウェア開発者向けのWebメディアです。「デベロッパーの成長と課題解決に貢献するメディア」をコンセプトに、現場で役立つ最新情報を日々お届けします。

※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です

この記事は参考になりましたか?

この記事をシェア

  • X ポスト
  • このエントリーをはてなブックマークに追加
CodeZine(コードジン)
https://codezine.jp/article/detail/19773 2025/01/21 11:00

おすすめ

アクセスランキング

アクセスランキング

イベント

CodeZine編集部では、現場で活躍するデベロッパーをスターにするためのカンファレンス「Developers Summit」や、エンジニアの生きざまをブーストするためのイベント「Developers Boost」など、さまざまなカンファレンスを企画・運営しています。

新規会員登録無料のご案内

  • ・全ての過去記事が閲覧できます
  • ・会員限定メルマガを受信できます

メールバックナンバー

アクセスランキング

アクセスランキング