2024年5月、Google Cloudで起きた大規模なデータ消失事件は、多くの企業にとって悪夢のような出来事でした。オーストラリアの年金基金であるUniSuperが、この予期せぬ災難に直面し、全てのデータとサービスへのアクセスを失いました。
この事件の発端は、Googleの内部ツールを使用してUniSuperのプライベートクラウドサービスを設定する際に、重要なパラメータが空欄のままにされてしまったことでした。この単純なミスが引き金となり、1350億ドルの資産を管理するUniSuperのアカウントが自動削除される事態に発展しました。
今回の記事では、この重大なミスの詳細と、それに対するGoogleの対応策について詳しく掘り下げます。
事件の概要と影響
2024年5月に発生したGoogle Cloudの設定ミスにより、オーストラリアの年金基金UniSuperが全データを喪失するという大惨事が起きました。この事件は、UniSuperが管理する1350億ドルの資産と600,000人以上の会員に影響を与え、2週間にわたり運営が停止しました。復旧作業は第三者のバックアップに依存することを余儀なくされ、完全復旧までには多大な労力と時間が費やされました。
この事件の引き金となったのは、Googleの内部ツールを使用してUniSuperのプライベートクラウドサービスを設定する際に、重要なパラメータが空欄のままにされていたことです。このミスにより、UniSuperのアカウントが自動削除されるように設定されてしまいました。その結果、UniSuperはGoogle Cloud上の全てのデータとサービスにアクセスできなくなり、大規模な影響が生じました。
Googleは、この設定ミスが単一の顧客にのみ影響を与えた孤立した事件であると強調していますが、このような事態が再発しないよう、内部ツールの見直しと改善を行うと発表しました。特に、問題のツールを廃止し、顧客が直接制御できるインターフェースに機能を移行するなどの対策が講じられました。また、データの削除に関する安全措置も強化され、事前通知や人間による承認チェックが追加されました。
問題発生の経緯
事件は5月2日に発生しました。UniSuperは突然、Google Cloud上の全データとサービスへのアクセスを失いました。当初、GoogleとUniSuperの共同声明では「不注意な設定ミス」が原因であると発表されましたが、詳細は明らかにされていませんでした。UniSuperは第三者のバックアップを使用して、5月15日にようやく完全復旧を果たしました。
今週、Googleは事件の詳細を公開しました。Googleの従業員が内部ツールを使用してUniSuperのプライベートクラウドサービスを設定する際に、重要なパラメータを空欄のままにしたことが、アカウントの自動削除を引き起こしたのです。この小さなミスが、UniSuperのアカウントとデータの消失という大きな問題を引き起こしました。
Googleは、このミスの原因となったトリガーとその後のシステムの動作を修正し、同様の問題が再発しないようにしました。特に、内部ツールを廃止し、その機能を顧客が直接制御できるインターフェースに移行することで、設定ミスのリスクを低減しました。
Googleの詳細な報告内容
Googleは、今回の事件について詳細な報告を行いました。問題は、Google Cloud VMware Engine(GCVE)プライベートクラウドの初期展開中に発生しました。内部ツールを使用してサービスをプロビジョニングする際に、重要なパラメータが空欄のままになっていたことが原因です。この設定ミスにより、UniSuperのGCVEプライベートクラウドが一定期間後に自動削除されるように設定されてしまいました。
このミスに対して、GoogleとUniSuperのチームは24時間体制で対応し、ネットワークとセキュリティの設定を復元し、アプリケーションとデータを回復させ、完全な運用復旧を目指しました。特に、Googleのクラウドバックアップが復旧に「重要な役割」を果たしたとされています。
また、Googleは、今回の事件が他のGoogle Cloud顧客に同様のリスクをもたらすものではないと強調しました。内部ツールの廃止やデータ削除の安全措置の強化など、広範な「再発防止策」を講じることで、再発防止に努めています。具体的には、ソフトデリートや事前通知、人間による承認チェックなどの措置が導入されました。
復旧作業とその過程
事件発生後、UniSuperの全データとサービスがGoogle Cloud上でアクセス不能となり、同社は重大な危機に直面しました。GoogleとUniSuperの技術チームは直ちに24時間体制で復旧作業に取り掛かり、ネットワークとセキュリティの設定を復元する作業が開始されました。この過程では、多くのシステムとデータの復元が必要であり、通常の運用を再開するまでに大きな努力が払われました。
復旧作業は複数のステップで行われました。最初に、ネットワークインフラの再構築が行われ、続いてセキュリティ設定の復元が実施されました。その後、アプリケーションの再インストールと設定が進められ、最後にデータの復元が行われました。Googleのクラウドバックアップがこの過程で重要な役割を果たし、UniSuperのデータを迅速に復元するための基盤となりました。
このような大規模な復旧作業は、多くのリソースと高度な専門知識を必要とします。特に、データの整合性を保ちながら復元を行うことは非常に重要であり、Googleのエンジニアリングチームはこの点に細心の注意を払いました。最終的に、UniSuperは事件発生から約2週間後に完全に復旧し、通常の業務を再開することができました。
再発防止策と今後の対策
今回の事件を受けて、Googleは再発防止策を迅速に導入しました。まず、問題の原因となった内部ツールを完全に廃止し、同様の機能を顧客が直接制御できるインターフェースに移行しました。この変更により、設定ミスのリスクが大幅に低減されることが期待されています。また、内部プロセスの見直しも行われ、徹底したチェック体制が整えられました。
Googleは、データ削除に関する安全措置も強化しました。具体的には、データ削除の前に事前通知を行う仕組みや、削除操作に対する人間による承認チェックを導入しました。これにより、誤ってデータが削除されるリスクがさらに低減されます。さらに、ソフトデリート機能も導入され、データが完全に消去される前に復元可能な状態で一時保管されるようになりました。
これらの再発防止策に加え、Googleは定期的な監査とレビューを行い、システムの安全性と信頼性を維持しています。また、顧客とのコミュニケーションを強化し、問題が発生した場合には迅速かつ適切に対応できる体制を整えています。Googleは、今回の事件を教訓に、クラウドサービスの品質向上に努め、顧客の信頼を取り戻すことを目指しています。