環境払い出しのリードタイムは平均30分前後に
自動化の実装により、かつては数日から一週間以上を要していた環境の払い出しリードタイムは、平均して30分前後にまで大幅に短縮された。申請者の待ち時間を大幅に削減しただけでなく、利用者に強いていた複雑な初期設定作業も不要となり、手作業の排除によって構成の標準化と品質の向上が同時に達成されたのだ。
しかし、この成果に至るまでの道のりは決して平坦ではなかった。特に開発陣を悩ませたのは、システム間連携における不確実性だ。作成されたばかりの子テナンシーに対して必須適用テンプレート(Terraformによるコード化されたインフラ設定)を適用する際、再現性のないエラーが頻発したのだ。
これは、クラウド事業者側の基盤におけるコンテナの混雑などが原因と推測された。デジタル庁側で根本的な解決が難しいこのブラックボックスの課題に対し、チームはリトライ処理の回数や間隔を細かく調整することで、システムが途中で停止しない堅牢なワークフローを作り上げた。また、大阪リージョンでのアクティベーションなど、完了までに長時間を要する処理についても、リードタイムを間延びさせないギリギリの待機時間を設定するなど、細部にわたるチューニングが施された。
他環境及び他チームとの連携で自動化が阻害されないように
もう1つ注目すべき点は、トラブル発生時の対応において「ゼロタッチプロダクション」の思想を貫いたことだ。本番環境への直接ログインは、たとえ善意であっても誤操作のリスクを伴い、証跡管理の負担も跳ね上がる。
そのため、日常的な運用はすべてSlackと自動化スクリプトで完結させている。どうしても本番環境へのログインが必要なインシデントに直面した際は、まずチケット管理システムのJiraに作業内容と完了条件を明記して起票する。それがSlackに通知され、管理者が承認して初めて作業者が環境へログインできる。ログインの事実も即座にSlackに自動通知され、作業者はそこにJiraのリンクを返信することで監査証跡を確定させる。利便性と厳密なガバナンスを両立させた解決策だ。
トラブル時には証跡を残したうえで本番環境にログインする運用に
オートスケール機能の実装、オブザーバビリティの強化──ガバメントクラウドの挑戦は続く
アカウント発行にかかる時間を劇的に短縮し、セキュアなインフラ提供を実現したOCI環境払い出し自動化プロジェクトであるが、町田氏はさらにその先を目指している。アーキテクチャの制約上残ってしまった一回の手動操作をいかにして排除し、完全なる自動化を達成するかが直近の課題だ。
さらに、今後のシステム拡張や需要増加を見据え、Podの異常を即座に検知するオブザーバビリティの強化にもすでに取り掛かっているほか、Kubernetesのオートスケール機能の実装も検討を進めている。
デジタル庁による挑戦は、単なるクラウドサービスの運用改善に収まらない。テクノロジーの力を駆使して属人性を排除し、システムの透明性と堅牢性を高めるアプローチは、今後の行政システム、さらには社会インフラをはじめとする民間企業のトランスフォーメーションに通ずるものがあるはずだ。
