推 Obb: 相當有道理.. 04/29 19:49
→ Obb:我就遇過幾次web hosting 掛掉的狀況.. 04/29 19:50
→ Obb:就算是godaddy全世界第一大的網域商, DNS照樣給我出問題.. 04/29 19:51
推 ggg12345:x86cpu有溫測電路,bios開機有記憶體測試,有的DRAM仍內建 04/29 20:07
→ ggg12345:有parity check.硬體是否完全正確還得靠一再發生的錯檢出 04/29 20:12
→ francej:所以Amazon EC2負責的頭頭本身就是fault tolerance專家 04/29 20:47
→ francej:基本上這個有點是在賣reputation. 你常當機,客戶就流失了 04/29 20:50
推 ggg12345:雲端就是委外靠專業專職的管設備也要scalable,不必要的刪 04/29 21:06
→ leicheong:這無關專業與否. 即使是IXM, 沒寫進指引的事還是沒人會 04/29 22:18
→ leicheong:去做的啦. 重開機有風險, 但平行運算平台的伺服器不 04/29 22:19
→ leicheong:重開機以脫離機組方式啟動的話, 無法進行硬體測試. 04/29 22:21
→ leicheong:小薯們不可能自發這樣做然後自行承擔責任的... 04/29 22:22
→ leicheong:另外按照慣例, 在有load balancing的地方, 即使有一個 04/29 22:24
→ leicheong:instance掛了, 只要其他使用者在其他伺服器的登入使用 04/29 22:25
→ leicheong:沒問題, 那段時間也不會算入downtime, 也就對公司名聲 04/29 22:26
→ leicheong:沒多大影響... 04/29 22:26
→ leicheong:一般雲伺服器機組都是數十部以上的伺服器組成, 如果 04/29 22:28
→ leicheong:用料不是太差以致多部伺服器同時有問題的話, 你的使用者 04/29 22:28
→ leicheong:會連續碰到問題的機會會很少, 多半就算進軟體bug了... 04/29 22:29
推 lunastorm:所以才會有CROSS DATACENTER的HA出現 04/29 23:06
推 zanyking:關於記憶體失敗的問題,大概得靠對Log做分析才有可能了。 04/29 23:16
→ zanyking:不然就是VM或OS層對這件事情有保護,發生時會Fatal err 04/29 23:18
→ zanyking:之後節點重起時,再對這件事情發出通知。 04/29 23:19
推 ggg12345:硬體DRAM的老招就是ECC parity check,PC是外部電路不易做 04/29 23:33
→ ggg12345:到就被拆除了,但現在是做在chip內.通常ram壞了就亂跑,一 04/29 23:36
→ ggg12345:發生就會有memory protection err,若OS不壞就會產生log. 04/29 23:39
→ rewqasdf:簡單的問題還要選一個晚上跑test? 用樓上的老招就打死妳 05/02 08:44