Calendar

六月 2012
M T W T F S S
« Apr   Jul »
 123
45678910
11121314151617
18192021222324
252627282930  

Categories

M-Team 主機已重新上線

據說這次 WebNX 跳電規模蠻大的,而且發電機還來不及啟動的樣子。
總之晚上 10 點前不久,M-Team 主機就這樣被機房跳電搞當了。
站長一路跟對方客服喊了數小時,終於在半夜兩點多重新讓主機上線。
對方的處理優先順序是由老客戶到新客戶,M-Team 是去年九月才重新進去,所以被排得很後面的樣子。
同樣在 WebNX 的卡提諾倒是恢復得比較早一些,不過也同樣面臨了一段不算短的 down time。

由系統記錄來看,M-Team 主機在晚上十點第一次當機後有被重開過一次。
但隨後又疑似再次斷電造成當機,直到接近凌晨兩點做了二次重開。

原本我以為他們是從斷電到凌晨兩點才讓主機開機過一次,沒想到不是。
一般來說,先不管斷電是怎樣的狀況,這種在電力問題沒有解決之前,就在晚上 10 點貿然重開主機是很不正確的判斷。
在各分割區沒有正確 unmount 的狀況下,已經是在進行 auto fsck 模式進行修復當中了,又來斷一次電,對檔案系統造成重大傷害的機率是很高的。
還好中間那次斷電沒有破壞到重要分割區的檔案系統,只有放 log 的 /var 受到更多影響而已。

大約 20 幾分鐘後 background fsck 做完,看到 mysql 這個關鍵字的時候就知道可能麻煩了。

不過在跑了全面性的資料表檢測後,發現只有 PT 站的 suggest 表 crash 掉,算是相當幸運的。

可能本來 M-Team 就沒什麼人氣的關係吧,在尖峰時段遇到斷電居然只有一張無關緊要的表 crash。
本來想說外站的 Discuz! 那邊一定會有什麼重大災情。
總而言之,WebNX 在晚上十點那次重開又斷電的做法其實是相當不專業的,坦白說實在是有點扯。
這次就姑且先拍照記錄下來,下次再發生的話一定要請站長去跟 WebNX 翻桌了。

不過 M-Team 每天凌晨都有關站跑 script 做自動備份,某方面來說造成重大損毀就是回溯而已。
但把相關的資料重新弄組合上去就變成一件很麻煩的事情。