TKYTEL COMMENT 23 はくさい局 2025-12-16 障害報告書: 仮想基盤システム 長期間にわたる動作不安定 主題の件、6/29 5 時頃から 12/16 8 時 18 分頃まで、「仮想基盤の動作 が様々な要因で不安定となったため」はくさい局への接続が不定期で不可能 となりました。ご迷惑をおかけしたかもしれないことを絶妙な塩梅でお詫び 申し上げます。一応。 1. 発生時期 6/29 5 時頃から 12/16 8 時 18 分頃まで 2. 経緯 --------------------------------------------------------------- 日時 事象 備考 --------------------------------------------------------------- 6/29 5 時頃 最初の基盤ダウンが発生。 (NIC 発狂) 7/1 4:52 頃 SSD 発狂、再起動で復旧 7/6 NIC 大発狂大会 NIC 完全対策 8/11 別障害で御臨終 ブートロダー発狂 10/6 19:51 頃 SSD アンマウントによる障害 SSD 延命措置実施 11/2 ゾンビプロセス 11/21 8:22 頃 SSD アンマウント。 交換を決意。 11/22 12 時頃〜 SSD 交換 11/23 2 回ほど 交換した SSD が発狂 11/28 20 時頃 御臨終 人間が発狂 12/2 仮復旧 12/15 〜 12/16 本復旧 2 重障害発生 --------------------------------------------------------------- 3. 障害内容 はくさい局含め収容している仮想基盤が、以下要因でダウンしました。い ずれも再起動で復旧しましたが、最終的には打つ手がなくなりました。 - VM の仮想ディスクを収容している SSD が何故かアンマウントされる - NIC が発狂する - 最終的に SSD を交換したが、データーがすべてないなった 障害によりダウンした回数は、未報告回数含め、約 57 回でした。 4. 発生原因 複数あるため内容ごとに記載する。 - NIC が発狂する → よくわかりませんでした。 - VM の仮想ディスクを収容している SSD が何故かアンマウントされる → - ファイルシステム(ext4)に損傷が発生していた可能性が高い。 - SSD の寿命は関係ないと思われる。 - 最終的に SSD を交換したが、データーがすべてないなった → - ファイル・システムの致命的は破損により、読み込むだけでアンマウ ントされた。 - SSD を交換した際、フォーマットのしかたが悪かったのかもしれな い。 - SSD の初期不良の可能性も捨てきれなかったため、SSD を初期不良と して交換した。 5. 障害時の対応 原則は再起動で復旧していましたが、 - 12/2 の仮復旧は夜間バックアップから - 12/15 〜 16 の本復旧対応時は直前の静止バックアップから それぞれ書き戻しました。 6. 対策 - SSD は原則、限界までこき使う。ただし、ファイル・システム破損時に見 分けられるよう頑張る。 - 新規媒体使用時は、試験を怠らないようにする。 - 媒体交換時、破損したデーターのコピーを防ぐため、媒体同士のコピーで はなく、バックアップからの書き戻しを原則とする。 7. ぴーえす 本復旧の際、別の事由(ブリッジ設定ミス)で電話局のみが起動していま せんでした。 8. 最後に - 今回の長期にわたる障害は、「本番環境の電話局」であれば、殴られるど ころでは済まされない話であったと思われます。 - 本電話局および東京広域電話網は、あくまで「趣味」による「実験的シス テム」であるため、ある程度のはくさい局の障害は容認いただきたく、お 願い致します。 - 本障害を受け、イントラ向け重要システムは一部 2 重化の対応を取りま したが、東京広域電話網向けシステムは予算の都合上 2 重化できませ ん。 以上