米Google Cloudは、5月初旬に発生したオーストラリアの顧客であるUniSuperに影響を及ぼしたインシデントの詳細について、5月25日(現地時間)に発表している。
UniSuperはGoogle Cloud VMware Engine(GCVE)を使用しており、インシデントは、UniSuperの持つ2つのゾーンにまたがる、複数のGCVEプライベートクラウドのうちの1つにて発生している。
2023年初頭、Googleのオペレータは特定の容量配置ニーズを満たすべく、内部ツールを使用してUniSuperのGCVEプライベートクラウドの1つをデプロイした。容量管理のための内部ツールは、2023年の第4四半期に廃止され完全自動化されたため、その後不要になっている。
Googleのオペレータは、社内管理プロトコルに従って作業を行ったものの、内部ツールを用いてUniSuperのGCVEプライベートクラウドをプロビジョニングする際に、1つの入力パラメータが空白のままだった。パラメータが空白だったため、システムはこのパラメータに当時は不明だったデフォルトの固定期間値となる1年を割り当てている。
システムによって割り当てられた1年間の期間終了後、UniSuperのGCVEプライベートクラウドが削除されてしまった。削除は、UniSuperからのリクエストで行われたわけではなく、Googleのオペレータが内部ツールを使用してパラメータを空白のままにした結果トリガされたため、UniSuperへの通知は行われていない(顧客からのリクエストによって削除が行われる場合、通常は事前に顧客へ通知される)。
削除されてしまったデータの回復は、UniSuperとGoogleのチームによって数日間にわたり24時間体制で行われ、UniSuperのGCVEプライベートクラウドの復旧、ネットワークとセキュリティ構成の復元、アプリケーションの復元、データの復元を経て、運用可能な状態に完全回復された。同じリージョンのGoogle Cloud Storageに保存されていたデータのバックアップは、インシデントの影響を受けなかったため、サードパーティのバックアップソフトウェアとあわせて復元作業に役立ったという。
なお、Googleはインシデント発生後直ちに、UniSuperとの共同声明を通じてインシデントを公に認めている。また、UniSuperの事例以前にGoogle Cloudではこのようなインシデントは発生しておらず、同インシデントはシステム的な問題によって発生したものではないと結論づけた。
Google Cloudでは、このようなインシデントが二度と発生しないようにすべく、一連のイベントをトリガした内部ツールを廃止し、特定の容量管理が必要な場合でも完全な自動化によって、UIを通じて顧客が制御できるようにしている。
あわせて、システムデータベースを精査し、すべてのGCVEプライベートクラウドを手動で確認して、他のGCVEデプロイメントが危険にさらされていないことを確認した。さらに、このようなデプロイワークフローにおいて、GCVEプライベートクラウドを削除対象に設定するシステム動作を修正している。
- 関連リンク
この記事は参考になりましたか?
- この記事の著者
-
CodeZine編集部(コードジンヘンシュウブ)
CodeZineは、株式会社翔泳社が運営するソフトウェア開発者向けのWebメディアです。「デベロッパーの成長と課題解決に貢献するメディア」をコンセプトに、現場で役立つ最新情報を日々お届けします。
※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です