障害対応訓練で得られた知見と今後の課題
芳賀氏はセッションの中で、実際の訓練の様子も紹介した。訓練の想定シナリオは次の通り。
「ある日、システム担当のHさん&Tさんが世界を旅するために長期でお休みを取ることになりました。Hさん&Tさんはリコメンドシステム全般の運用を担当していました。障害対応のノウハウやハンドリングはHさん&Tさんの秘伝のタレとなっている部分も多く、2人が長期休暇に入ることで、システムの安定稼働に起用信号が灯ったのです。しかも最悪なことにHさん&Tさんは、お休みの前にいくつかのバグをシステムに入れ込んでしまっていました」
訓練はオフラインで実施。「障害対応未経験のメンバーへの教育や説明がやりやすく、グループの一体感が増したというメリットが得られた」と芳賀氏。その一方で、訓練内容については「準備していた障害発生用のスクリプトが動かず、急遽タイムラインを組み替えたり、開発環境で想定外のエラーが発生したため、参加者以外の開発者に影響を及ぼしたり、障害対応するためにアプリチームへのQAがかなり発生したり、想定以上の対応負荷も発生したという。「次回開催する際には、このあたりの課題を改善したいと思う」と芳賀氏は語る。
訓練後の終わりにはチームごとに振り返りを実施した。障害対応訓練を経験したことで、「現行システムに対する技術的な課題だけではなく、障害対応プロセス自体に対する非技術面での課題の把握もできた」と芳賀氏は話す。明らかになった非技術的な課題とは、他チームへの広報タイミングや連携方法などが明文化できていなかったことだ。
さらに障害対応訓練の取り組み自体に対しても振り返りを実施。良かった点として、普段担当しない役割の経験や、サービス詳細を真剣に見る機会が得られたことが挙げられた。メンバーからも「総じて好評を得ている」と芳賀氏は語る。
今後も障害対応訓練の活動を継続しつつ、個々人の障害対応能力を磨き上げ障害訓練パターンの種類を増やすことで、障害が発生しない回復力の高いシステム設計ができるようにしていきたいという。また実際の障害対応はインフラメンバーだけではなく、アプリ開発メンバーも巻き込んで行うことも検討。「自グループのみならず、他グループも障害対応訓練に参加してもらうなど、データ推進室全体での回復力の向上に寄与したい」と芳賀氏は意気込みを語り、セッションを締めくくった。