増え続けるシステムエラー、障害対応の苦しさと課題
これまで1,000件を超える障害に対応するなかで、「悲しい思いがたくさんあった」と振り返る野村氏。講演は、システム障害についての統計を示すことから始まった。
野村氏によると、日本国内におけるシステム障害の年間損失額は5兆円にのぼるという。障害が起こりにくいと思われがちな金融庁への障害報告件数も1日当たり約5件となっており、「しっかりやっていても障害が起きてしまう」と、完全に防止することの難しさを強調した。
野村氏の所属する組織でもオンコール対応を行っており、野村氏の赴任当時は24時間365日のサービスのため夜中でも電話を取らなければならず、セキュリティ室に入るまでもさまざまな手続きを経る必要があった。
この状況を変えなければと強く感じたのが、クレジットカードのシステム障害だ。2015年9月に発生した大規模障害はニュースになり、SNSでも大きな話題となった。対応現場も大混乱の様相で、500名以上の人員が対処を行ったという。
大規模障害を含む、過去1,000件以上の障害事例に対応してきた野村氏。障害の分析を行うなかで、以下の3点の「改善ポイント」に気づいたと語る。
- システム視点ではなくサービス視点
- 事象ではなくアクション
- 情報の量ではなく情報の質
過去7年間1000件の障害事例から導き出した3つの改善ポイント
1つ目のポイント「システム視点ではなくサービス視点」に関して、この視点が欠けていることが、現場がどれだけ一生懸命やっていても、顧客から「情報が足りない」「情報が遅い」というクレームにつながってしまう理由でもあるという。SIerはシステムの視点から障害を語るが、ユーザー企業である顧客側にとっては、データベースが落ちたことによってどのサービスにどう影響するかが重要なのだ。
この視点に立てない限り「“サービスを復旧するための”情報が足りない」「“サービスを良好な状態に戻すには”遅い」と言われ続けてしまう。野村氏は、「システムを直すことも大事だが、サービスの継続を考えることが重要」と述べ、事業者視点で情報共有することの必要性を示した。
2つ目のポイント「事象ではなくアクション」については、障害として発生する事象は多岐にわたるものの、その復旧にかかるアクションは一定数に収束するというものだ。
新しい技術が発見されると、それに伴って発生する事象はおのずと、これまでとは違ったものになる。そのため事象に着目すると、検討が「いたちごっこ」になる。
一方で取れるアクションはというと、サーバーの再起動やWebへの障害情報掲載など、限定的なものばかりだ。したがってアクション起点で対応を検討することが、トラブルシューティングの速さを決定づけるという。
「マネージャーやベテラン、つまりトラブルシューティングができる人というのは、『どんなアクションをとるか』をまず考え、必要な情報を集めて動き出せる人だ。起こりうる事象は無限だが、取れるアクションは有限だ」
3つ目のポイントである「情報の量ではなく情報の質」とは、必要な情報のみをそろえて判断すること。障害発生時は、とにかく解決の糸口をつかみたいという焦りから「何でもいいから情報をくれ」とチームメンバーに要望しがちになる。しかし、こうした指示は情報を提供する側の負担が多くなるうえ、受け取る側も数多くの不必要な情報を受け取ることで混乱して動けなくなる恐れがある。とくに障害対応の経験が浅い若手などは、多くの情報に混乱して指示を待つことに終始してしまいがちだ。
このような「指示待ち」によるロスを防ぐためには、トラブル時に取りうるアクションに対してどのような情報が必要なのかを事前に決めておくことが大切である。
たとえば障害情報をWebに掲載する場合、はじめから正確な復旧見込みを出すのは困難なうえに時間がかかる。一方で、「30分以上かかる場合はWebに掲載する」というルールだけ決めておけば、必要な情報はおのずと限られ、対応も早くなるというわけだ。