2025年10月11日土曜日

韓国国家情報資源管理院データセンター火災からの教訓

このエントリーをはてなブックマークに追加
Pocket

2025年9月26日出火の韓国国家情報資源管理院データセンター火災では、日々の民間取引にも関わるサービスが停止し、ハードウェア消失で復旧に時間がかかるサービスが多数出ており、さらに直近のデータもしくは全体が失われるサービスが出た*1。想定内だとは思うが、被害は甚大だ。

ネトウヨさんが韓国ざまぁ…と言うと予想していたのだが、意外に困惑と同情を述べていた。そう、我々が使っているシステムが、韓国のシステムより安全と考えるべき理由はどこにもない。他山の石とすべき事例だ。

さて、現時点で得られる教訓は以下になる。

広域バックアップの重要性が増している
出火元はリチウムイオン電池で、リチウムイオン電池を搭載した無停電電源装置(UPS)の利用のリスクが再び顕在化した。2022年にカカオトークのデータセンターでUPSが発火しており、その以前にも事例がある*2。UPS用のリチウムイオン電池はモバイル機器で用いられるタイプよりは安全なものを使っている*3が、リチウムイオン電池が燃える事は実際のところよくある。充電中に出火が多いようだが、衝撃による破損や端子のショートなどでも発火する。サーバーの焼失はかなり例外的なリスクだと思われていたが、リチウムイオン電池のUPSの普及とともに増している。それも複数台が焼失しうる。
システム冗長化技術の多くはドライブなどのパーツの故障、計算機クラスターの中の一部分が故障することを想定としたものであり、ラックごと焼失するような場合は対応できない。テープドライブに落として別に移動させるか、ネットワーク経由で別データセンターへの広域バックアップが必要になる。日本では過去に津波で機器が水没することなどがあり、広域バックアップの重要性は認識されていたが、より高く評価すべきと言うことになった。
重要度の落ちるシステムも要バックアップ
データ全喪失は、業務用クラウドストレージG-Driveで、858TBの容量があった。スキーマを定義するデータベースではなく、一般職員向けのオブジェクトストレージになる。利用していた一般職員はローカル端末にファイルが残っていないか必死に探して仕事をしているそうで、利用者がそれまでの業務効率を取り戻すまで、かなりの時間がかかる事態となってしまった。
なぜバックアップを取っていなかったのかと言う疑問があるが、基幹システムではないので重要度が落ちると判断したのは想像に難しくない。利用用途を指定しないでユーザーが使うストレージだから、保存されているデータの重要性が分からない。しかし、ユーザーはバックアップを取ってくれているものだと思っていたはずで、事後的には問題のある方針であった。
復旧時間が長すぎた
すべてではないが、復旧に一ヶ月ぐらいかかるサービスが出てきている。日本政府のつくっている非機能要件でも甚大災害時は最大一ヶ月以内に復旧としているが、芳しくはない。
復旧時間はデータセンターとハードウェアが手配できるまでの時間が大きな割合を占めており、別サイトにスタンバイサーバーを用意するのが教科書的な対策ではあるが、費用がかかる。民間クラウドサービスに間借りする手順をつくっておくなどの工夫がいりそうだ。自治体システムであれば、他の自治体の施設やプライベートクラウドに間借りするのも手かも知れない。
リカバリー可能時点が遠すぎた
月末に生じ、当月のデータのバックアップが取れていないサービスもあるそうだ。リカバリー可能時点の改善が求められている。バックアップの頻度を上げる必要がある。リレーショナル・データベースであればアーカイブログのミラーリングで、ほぼリアルタイムにリモートにバックアップをとることを第一に考えるべきのようだ。
エンドユーザーが自由に扱えるオブジェクトストレージは、バックアップを諦めて広域リプリケーションを検討すべきかも知れない。最新のテープドライブ(LTO-10)で30本ぐらいの容量858TBがあり、用途から考えて世代管理は要求されていないからだ。オブジェクトストレージにも使えるミドルウェアApache Ozoneの機能から考えると、9nノード構成(n∈{m∈ℕ;m≥1})にして3nづつ3地点のデータセンターに配置すれば、ディスク消費量1.5倍でデータセンター1地点の喪失に備える事ができる。

無停電電源装置(UPS)のリチウムイオンバッテリー交換中に発火しているので、交換作業中の衝撃でバッテリーが変形するかショートし、しかもデータセンター内に多数の人がいるので防火壁をおろして希ガスを注入できなかった…ようなこともありそうではあるが、報道ではその可能性に言及していなかった。

分かる範囲で総括すると、テールリスクだと思っていたらそうでもなく、甘くつくっていた業務継続計画の問題が露呈した事例。そもそも燃えないように、無停電電源装置(UPS)の蓄電池の種類を変えるなどの手も理屈ではあるが、リチウムイオンが主流になってきたし、重量の問題がある。仕方がないので、復旧計画の方をもっと熱心に策定しよう。なお、策定したプランは実際に演習で実行可能なことを確認しておく必要がある。

0 コメント:

コメントを投稿