運用担当・保守担当の権限移譲でエスカレーションを効率化
2つ目の事例は、障害対応の改善だ。こうした検討は「重要だが緊急ではないタスク」とされ、後ろ倒しにされがちだ。そこを乗り越えて継続的に改善した例として、野村氏は金融や通信・官公庁のようなミッションクリティカルに運用される大規模システムの例を挙げた。
今回のケースでは、運用担当が100名規模、開発兼務の保守担当がおよそ20名×25チームの500人程度という体制でシステムが運用されていた。役割分担としては、エラーメッセージによるアラートをエスカレーションするのが運用担当、対応を要するかどうかを判断するのが保守担当という形だ。
なおかつ、エラーメッセージの基準を決められるのは保守担当側で、不要メッセージを停止する場合、リリース判定に2週間かかるという前提があった。そのため運用担当が「不要なメッセージを止めてほしい」と依頼しても、業務のつらさが“他人事”であるうえに対応が煩雑なことから改善が進まないというジレンマがあった。
実際にこの事例においては月間3万件のアラートが鳴っており、鳴りっぱなしのパトランプを止めてメッセージを確認し、エスカレーションの電話をかける専任担当者が置かれるほどだった。しかも、かけた電話はほとんど「対処不要」。ときには「こんなメッセージで夜中に電話してくるな!」と叱責され、運用担当者が消耗する事態も起きていた。
この対立構造を解消すべく野村氏は、保守担当がすべてを担う形へと役割分担を変更した。「自分が楽になるためなら、人は改善サイクルを回せる」というのがその理由だ。
ただし単に権限移譲を進めるのではなく、運用のスリム化も同時に行なった。具体的には、従来2週間かかっていた不要メッセージの設定を簡単にしたうえで、エスカレーションの電話も自動化。保守側のタスクが増えることには多少の不満も出たものの、ふたを開ければ「そこまで揉めなかった」といい、見事対立解消に成功した。
権限移譲がスムーズに進んだ背景には、地道な根回しがあった。野村氏は全25チームを回り、現状を説明したうえで登録の方法を教え、納得できない担当者には個別に説得して協力を依頼したのだ。その結果、権限の一本化から1ヶ月でアラートの9割が不要だったとわかり、運用が効率化したというから驚きだ。
さらに野村氏は、「大切なのは、改善が継続していること」と強調する。よくあるパターンとして、「大幅な削減には成功したものの、その後のメンテナンスが続かず、再びアラートが増えていく」ことがあるという。しかし今回の事例では、強い働きかけもなくアラートの最適化が進み続けている。
改善が継続している理由は、権限移譲が保守側にも大きなメリットをもたらしたことだ。保守担当としても、夜中に不要な電話がかかってくる状況は望ましくなかった。権限移譲とエラーメッセージの削減が成功したことで、「業務改善を進めれば自分たちが楽になる」というマインドが育ち、継続的な取り組みが可能になったのだ。
大規模障害は「エンドユーザーのために」クライアントと協力して乗り越える
最後に、野村氏は「協同で変えるシステム障害対応」について語った。障害発生時には「障害を起こしたチームが悪い」という雰囲気が漂い、別のチームがあまり積極的に関わってくれないこともある。この空気をなんとか打ち破り、助け合いながら障害対応に当たってほしいというのが野村氏の望みだ。
「これはユーザー企業との関係においても言えることだ。障害を起こした開発会社がすべて対処すべきだと切り捨てるのではなく、可能な限り力を貸していただくことが、エンドユーザーへの影響を最小化する」。
「開発というものは、保守運用の担当だけでなく、企画も営業もクライアントも、皆を巻き込んで行うものだ。これからは、“協同で変える”という考え方をスタンダードにしていきたい」。野村氏はそう語り、講演を締めた。