システムが提供する価値を高めるためにもインシデント対応は重要
草間氏はインシデント対応の重要性と、その過程でPagerDutyがどれだけ貢献できるかに話を向けた。なお、インシデントとは、何らかの原因でユーザーに影響が出ている、正常に利用できない「状態」を指す。この状態はさまざまな原因で発生する可能性があり、システム障害はその原因の一つである。サービスが直接的な問題を抱えていなくても、経路上のネットワークの問題や人的ミスなどもインシデントを引き起こすことがある。
セキュリティ関連のインシデントも存在し、その対応は非常に重要である。現代社会ではデジタル化が進み、ソフトウェアおよびサービスの重要性が年々高まっている。アプリケーションの複雑化、特にAPIの連携によるものや、ユーザーフィードバックへの即時対応の必要性が増しており、サービスの安定稼働が求められる状況の中で、インシデント対応の難易度は高まっている。このような背景のもと、人と人との連携やコミュニケーションが重要となる。そのため、インシデント対応を体系的に進める必要がある。
草間氏は、インシデント対応や運用の重要性を説明するため、運用中のシステムが提供する価値の総量の最大化についての図を示した。縦軸は事業価値、横軸は時間であり、システムが提供する価値の総量は図の面積で表される。たとえば、開発を早めることでこの面積を増やすことができる。アジャイル開発などの開発手法は、この価値を増加させるために行われる取り組みである。
開発だけでなく、インシデント対応もシステムが提供する価値を高めるために重要である。システムが停止すると、図の面積(提供する価値)が減少してしまうからである。インシデントに素早く気づき処理し、さらに将来起きる可能性のあるものを予防することで、価値を高めることができるのだ。
次に草間氏は、システム障害やインシデント対応を行う者は、何か問題が発生した際に即座に対応する、正義の味方のような感覚になるが、それを目指してはいけないと指摘した。重要なのは、場当たり的な対処でなく、大きな目的を持ち、失敗しても立ち直ることができるマインドセットが重要だという。インシデントコマンダーのもとに、体系的な対応を行う組織が望ましい。
インシデントコマンダーはインシデント対応の指揮者であり、重大インシデントを解決に導くことを目的として意思決定を行う。日々の地位に関係なく、重大インシデントにおいては最も位が高く、CEOやCIOよりも重要な決定を行うことができる。
インシデント発生中は多くのアラートが上がり、同時に多くの対応を行う必要がある。このような状況では、一人で全てを対応することは不可能である。インシデントコマンダーは直接手を動かさず、作業は担当者に任せる。具体的な指示によって、誰が何をすべきかを明確にする。この役割分担により、効率的かつ迅速なインシデント対応が可能となる。