看板 Soft_Job 關於我們 聯絡資訊
※ 引述《Obb (有趣的世界)》之銘言: : 台灣一向走得比較慢半拍 : 雲端的市場越來越集中囉 : http://www.jobbole.com/content.php/1101 : 發表於2011-04-28 07:30 AM :   越來越多IT巨頭進入集體轉型期。日前,全球第二大PC廠商戴爾宣佈,將投入10億美 : 元建設數據中心,進一步開發雲計算服務,標誌著戴爾從傳統PC廠商向解決方案供應商( : IT服務)轉型。 : [Deleted] 其實看到大家在討論「雲」, 有一個問題好像很少人討論的. 就是因為硬體做成的軟體執行錯誤問題. 在維護伺服器的時期大概發生過一、兩次系統穩定性的問題, 是和 某條記憶體有問題有關的. 這在一般單台伺服器很容易檢查, 只要 選一個晚上跑一下memtest就可以了吧. 可是在「雲端」呢? 不見得 每間公司都有規定花時間跑相關的檢查程式, 再安裝平台的操作系統 吧. 大多數都是看系統能跑起來就會「收貨」了. 如果有記憶體問題而不影響系統的話 (例如6條記憶體只有一條有問題 的場合, 因為系統效能的問題kernel區域一般會在連續的位址. 也就是 說這些系統只要開機時剛好沒載入到有問題的記憶體, 重開機前一般 也不會再碰到, 只會影響新執行的應用程式), 你的程式懷疑可能是 硬件問題而導致出錯的話, 有甚麼方法可以nail down問題呢? 事情還會再複雜一點. 因為「雲端」的性質, 你無法確認出問題的 instance是在那台伺服器執行的. 也許你再跑一次, 程式在另一台 伺服器執行你就完全看不到問題, 但你無法知道下一次再執行時 會不會又在有問題的記憶體執行. 這樣就算你用某些方法能夠 鎖定是記憶體問題, 你也無法向供應商證明. 他們也該基於公司 政策拒絕承認是他們的問題吧. 再考慮一些其他情況, 例如空調系統因事故停止運轉等. (雖然 數據中心一般會有兩組以上的可獨立維持運行的空調機組, 但 常看TDWTF的人對"有可能失效的系統都有可能一起失效"這說法 應該不會有意見吧. 真的失效的時候一般都是按既定程序盡快 恢復就是結束了. 不過失效期間做成的高溫是有可能損害硬體的. 我目前沒有看到任何一間「雲端」服務供應商有指引安排在出現 空調事故並持續若干時間後對整個房間的伺服器安排進行檢查的. 一些普通的應用程式當掉重跑也許沒問題. 可是如果是商用的, 特別是金融類的呢? -- -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 61.92.4.195 ※ 編輯: leicheong 來自: 61.92.4.195 (04/29 19:08)
Obb: 相當有道理.. 04/29 19:49
Obb:我就遇過幾次web hosting 掛掉的狀況.. 04/29 19:50
Obb:就算是godaddy全世界第一大的網域商, DNS照樣給我出問題.. 04/29 19:51
ggg12345:x86cpu有溫測電路,bios開機有記憶體測試,有的DRAM仍內建 04/29 20:07
ggg12345:有parity check.硬體是否完全正確還得靠一再發生的錯檢出 04/29 20:12
francej:所以Amazon EC2負責的頭頭本身就是fault tolerance專家 04/29 20:47
francej:基本上這個有點是在賣reputation. 你常當機,客戶就流失了 04/29 20:50
ggg12345:雲端就是委外靠專業專職的管設備也要scalable,不必要的刪 04/29 21:06
leicheong:這無關專業與否. 即使是IXM, 沒寫進指引的事還是沒人會 04/29 22:18
leicheong:去做的啦. 重開機有風險, 但平行運算平台的伺服器不 04/29 22:19
leicheong:重開機以脫離機組方式啟動的話, 無法進行硬體測試. 04/29 22:21
leicheong:小薯們不可能自發這樣做然後自行承擔責任的... 04/29 22:22
leicheong:另外按照慣例, 在有load balancing的地方, 即使有一個 04/29 22:24
leicheong:instance掛了, 只要其他使用者在其他伺服器的登入使用 04/29 22:25
leicheong:沒問題, 那段時間也不會算入downtime, 也就對公司名聲 04/29 22:26
leicheong:沒多大影響... 04/29 22:26
leicheong:一般雲伺服器機組都是數十部以上的伺服器組成, 如果 04/29 22:28
leicheong:用料不是太差以致多部伺服器同時有問題的話, 你的使用者 04/29 22:28
leicheong:會連續碰到問題的機會會很少, 多半就算進軟體bug了... 04/29 22:29
lunastorm:所以才會有CROSS DATACENTER的HA出現 04/29 23:06
zanyking:關於記憶體失敗的問題,大概得靠對Log做分析才有可能了。 04/29 23:16
zanyking:不然就是VM或OS層對這件事情有保護,發生時會Fatal err 04/29 23:18
zanyking:之後節點重起時,再對這件事情發出通知。 04/29 23:19
ggg12345:硬體DRAM的老招就是ECC parity check,PC是外部電路不易做 04/29 23:33
ggg12345:到就被拆除了,但現在是做在chip內.通常ram壞了就亂跑,一 04/29 23:36
ggg12345:發生就會有memory protection err,若OS不壞就會產生log. 04/29 23:39
rewqasdf:簡單的問題還要選一個晚上跑test? 用樓上的老招就打死妳 05/02 08:44