→ tn00210585 : 1分之10的14次方? 10分之1的14次方? 都幾? 12/26 06:32
欸,我真的寫反了XD,感謝
推 tn00210585 : 推分享 12/26 06:34
推 user1120 : 推。小疑問,如果rebuild的範圍一定是完整的硬碟容 12/26 07:23
→ user1120 : 量,也不見得每次rebuild的時候,都剛好把整個硬碟 12/26 07:23
→ user1120 : 用滿,理應成功率會再高一點吧? 12/26 07:23
→ tn00210585 : 樓上 你要考慮當檔案極其重要時 你要把最差的可能情 12/26 07:28
→ tn00210585 : 況來做為基礎 12/26 07:29
→ assemblies : 誰告訴你硬碟一次讀1個位元的 你讀給我看看 12/26 07:58
沒有說硬碟一次只讀一個bit,但機率就是這樣算的,不需要把問題搞複雜
推 SRNOB : =推 很認真分享也有用的文章 要是我大概打150字 12/26 08:12
推 wkwtb : 我不用完美重建,只要大部分資料救得回來 12/26 08:16
我是覺得他算錯了,他的NxS = 總容量,但RAID 5的有效容量應該是(N-1)xS
推 grief3 : 只看結果 你應該是算錯了 跟其他論文算出來都不一樣 12/26 09:57
→ grief3 : 要真像你寫的這樣 RAID5早就淘汰了 12/26 09:57
我是覺得RAID5應該淘汰了,另外能請您提供論文嗎?
→ KinoniK : 我們公司機房raid5做了超久 都沒事 12/26 10:07
真的衷心的希望能一直持續下去。
→ ruo01332000 : 是說...重建成功機率這麼低的話 12/26 10:25
發生URE不代表重建會失敗...
仔細看了一下該文網站上的建置文章,他用的是RAID 1,
搭配SIL3124,用RAID 1、很合理。
推 filiaslayers: 樓上你貼那篇跟RAID5的關系是? 12/26 10:39
→ howard65 : 高級Raid Controller都有Patrol read/scrubbing機制 12/26 10:56
→ howard65 : 不會讓你嚴重到已經一顆offline要重建才發現 12/26 10:57
→ howard65 : 某些bit是壞掉的狀況.... 12/26 10:58
還是會有一些狀況讓整顆硬失效,然後就offline。
這篇就是討論當RAID 5 degraded,rebuild時會遇到URE的機率。
另外管理RAID,定期做check consistency是必須的,不過我不想模糊焦點
→ zyxyz : 樓上, 那如果不是甚麼高級Raid Card呢... 12/26 11:15
→ assemblies : 英文後面有per bits read才對 不然亂翻沒人看得懂 12/26 11:16
→ assemblies : 沒死換一顆新的也是整顆要重建 有差嗎 12/26 11:17
感謝!的確忘了這部分。習慣了URE自以為理所當然大家都能懂...
→ vincehuang : 鬼扯一通,譁眾取寵 12/26 11:40
感謝指教,如果能指點一下我錯在哪就更讓人高興了。
然後我覺得在這個版喧嘩取眾一點意義也沒有。
→ howard65 : software-raid也有(manual)consistency checking... 12/26 11:53
→ ruo01332000 : 網路儲存公司買了2萬顆硬碟沒可能不RAID的吧? 12/26 11:58
→ ruo01332000 : 如果URE對RAID重建事關重大還會買一堆消費級的用嗎? 12/26 11:59
這篇專指RAID 5,不包含RAID 10、RAID 50、RAID 60。
→ y3k : 不太可能像你這個這麼低 低於99.9%就已經很嚴重了 12/26 12:11
→ y3k : 另外連1bit都不能錯的標準也不能運用在消費級上 12/26 12:12
→ y3k : 只錯1bit或許連謎片的一個frame的一個像素都沒影響 12/26 12:13
→ y3k : 啊XD 12/26 12:13
推 int5566 : 閣下算出來的那個機率是讀寫4T發生一個bit都不會讀 12/26 12:27
→ int5566 : 錯的機率吧...... 12/26 12:27
推 sai25 : 實務上r5掛掉的狀況真的不少 所以我公司跟家裡都改R 12/26 12:49
→ sai25 : 6了 12/26 12:49
→ ArthurDX : 你好像完全算錯了,同int5566講的,你算的應該是 12/26 13:18
→ ArthurDX : 讀寫4TB而一個bit都不會出錯的機率,但RAID5有校驗 12/26 13:21
→ ArthurDX : 資訊,會計算還原資料,而你的算式完全沒有考慮進去 12/26 13:22
是阿,所以我強調是 "完全成功重建"。
至於發生URE時,嚴重程度可大可小,請看五
而ArthurDX說的RAID 5計算還原資料,
當降級狀態,又發生read error,是沒有更多的亢餘能算出資料它到底是什麼的。
但RAID 6或其他有兩顆以上的亢餘數據,在一顆丟失時,
仍還保留足夠的亢餘來算出原始數據。
→ kamichu : 就1bit出錯,看用在何等級的資料囉,記憶體也會... 12/26 13:43
推 filiaslayers: 所以一間買兩萬顆硬碟的公司只會用RAID5? 12/26 14:20
→ filiaslayers: 講話沒邏輯不要讓人見笑了 12/26 14:21
※ 編輯: Litfal (220.135.179.10), 12/26/2014 16:02:28
※ 編輯: Litfal (220.135.179.10), 12/26/2014 16:30:23
→ ruo01332000 : 只要是RAID 哪種不會被URE影響? 是不是用RAID5重要? 12/26 16:24
→ ruo01332000 : URE是機率性的 處裡大小越大就用高的機率遇上 12/26 16:25
→ ruo01332000 : RAID6也只是把這個機率降低而已 12/26 16:26
推 filiaslayers: 原po也只說不要用raid5,你要無限上綱是你家的事 12/26 16:32
※ 編輯: Litfal (220.135.179.10), 12/26/2014 16:36:10
→ ruo01332000 : 我的意思只是想說 那種大型數據中心也使用消費級的 12/26 16:33
→ ruo01332000 : URE<1x10^14的消費級硬碟 而未使用更高的^15或16 12/26 16:34
→ ruo01332000 : 可見這個問題的嚴重性並沒有這麼大 12/26 16:34
請看我上面的回應,我也有提供表格,算出企業級硬碟在RAID 5下的一些機率數據。
另外我不覺得大型數據中心仍在使用RAID 5,尤其是有可用性保證的數據中心。
甚至不覺得他們仍在使用單純的RAID,
很可能改用Storage Pool的概念來簡化管理與保證可用性了。
※ 編輯: Litfal (220.135.179.10), 12/26/2014 16:37:01
※ 編輯: Litfal (220.135.179.10), 12/26/2014 16:44:19
推 chang0206 : 統計數學什麼的我是不懂啦,但是「成功重建」的定義 12/26 16:41
→ chang0206 : 應該不是把整個4TB的資料從頭到尾讀過一遍吧? 12/26 16:41
→ chang0206 : 或許這種算法應該說成clone成功的機率? 12/26 16:43
You got it! 而且是低階clone。
只是在沒有亢餘保護的RAID環境下,發生URE引起的後續效應,可能會比單顆嚴重的多。
※ 編輯: Litfal (220.135.179.10), 12/26/2014 16:52:14
推 chang0206 : 因為在實務經驗上,我相信IT人員應該多少都碰過或 12/26 17:01
→ chang0206 : 聽說過Raid5重建失敗的案例,但是那種案例大部分都 12/26 17:02
→ chang0206 : 是在rebuild的時候,又發生第二顆硬碟故障的情況 12/26 17:02
→ chang0206 : 而不是單純的資料復原失敗。 12/26 17:02
※ 編輯: Litfal (220.135.179.10), 12/26/2014 17:18:11
※ 編輯: Litfal (220.135.179.10), 12/26/2014 17:30:07
→ Clarkliu : 等一下 raid5不是有1/3的容量用來儲存校驗碼? 12/26 19:06
→ tn00210585 : 不是1/3... 12/26 19:07
推 birdy590 : RAID5 的確很危險, 但是這個數據計算方向完全錯誤 12/26 19:40
→ birdy590 : 實務上最常發生的是相同型號相同批號的硬碟 12/26 19:41
→ birdy590 : 存在運作一段時間以後有兩顆以上同時壞軌的機率 12/26 19:41
→ birdy590 : 可以對照 backblaze 的實測結果, 但是一般 RAID box 12/26 19:43
→ birdy590 : 使用硬碟的方式會更操 折損率也不會只有 2~4% 12/26 19:43
只是關注點不同罷了。
不同原因導致同樣的重建失敗或資料損失的結果,累積機率只會更高而不會更低。
※ 編輯: Litfal (220.135.179.10), 12/26/2014 19:53:25
※ 編輯: Litfal (220.135.179.10), 12/26/2014 19:54:17
推 zh2013 : 硬碟在有重啟次數時就得更換硬碟了 12/26 20:13
推 GJME : 總覺得原po應該少算什麼 企業運算環境可靠度99.9% 12/26 20:57
→ GJME : 都算非常嚴重了 12/26 20:57
→ GJME : RAID 5 在實務上沒那麼慘的說 12/26 20:58
推 GJME : 不過這裡我講的純粹是結果論啦 況且硬碟本身的糾錯 12/26 21:03
→ GJME : 搭上RAID冗餘計算 應該算可靠了 再者 硬體故障的機 12/26 21:03
→ GJME : 率還比較高 12/26 21:03
→ danny8376 : RAID5會在資料中心用? 別笑了好嗎 12/26 21:22
→ danny8376 : 對了 上面那個貼計算機的 12/26 21:31
→ danny8376 : 這是他自己說的 他的算法有爭議性 12/26 21:31
→ danny8376 : 這是他提供的另一個說法 12/26 21:32
→ danny8376 : 至於到底是不是真的這麼危險也說不準 12/26 21:34
推 dabochi : RAID5當然可以用在資料中心 用法是:把一組RAID5當 12/26 21:34
→ dabochi : 做一個基本單位 然後每兩個基本單位做一組RAID1 12/26 21:35
→ dabochi : 所以RAID5重建不起來就不是大問題 大不了整個單位拔 12/26 21:37
→ dabochi : 下來 重做RAID1就是了 12/26 21:37
→ dabochi : 回主題 RAID5本身就是效率與費用的妥協 米不夠多就 12/26 21:39
→ danny8376 : 所以你知道這已經不RAID 5了嗎 12/26 21:39
→ danny8376 : 不然我是不是該說RAID 10/01叫RAID 0了? 12/26 21:40
→ dabochi : 認命吧 乖乖用RAID5 不然就是認份用排程做冷備份 12/26 21:41
→ danny8376 : 總之資料真的重要 比起RAID 多複製一分以上才實際 12/26 21:41
→ dabochi : 這個做法在現有的RAID定義中沒有定義 但是其實很常 12/26 21:46
→ dabochi : 見 高階一點的Storage都有 如果覺得不應該算RAID5應 12/26 21:48
→ dabochi : 用 那就叫RAID51吧 12/26 21:49
推 birdy590 : 現在的顯學是分散式儲存, 某一台整台掛掉都沒有影響 12/26 23:15
→ birdy590 : 只壞一兩顆硬碟當然更沒影響 12/26 23:15
→ kamichu : 還是同樣一句話看資料重要性,重要就raid1加異地 12/26 23:51
→ kamichu : 不重要就raid幾隨便自己爽就好,包括記憶體也會出錯 12/26 23:52
→ kamichu : 至於資料中心,每個檔案都有兩份三份 12/26 23:54
→ kamichu : btrfs的raid5有人用過嗎? 12/26 23:55
推 chang0206 : btrfs 一直都還在「體驗」階段 不敢在重要機器上面 12/27 00:32
→ chang0206 : 實際拿來應用 12/27 00:33
→ MrDisgrace : R幾沒差~重要會異地備份 公司只是陽春R5+hotspare 12/27 01:43
※ 編輯: Litfal (220.135.179.10), 12/27/2014 01:46:39
→ MrDisgrace : 法日美各有一份完整備份 各據點要自己保留15天備份 12/27 01:46
推 FLJX : 查了一下 國外2007就有人討論 2010 2013繼續延燒 12/27 02:05
→ FLJX : 加上電腦還有其他層的容錯機制 其實還在可以接受的 12/27 02:07
→ FLJX : 範圍。反之如果是真的重要一個bit都不能錯 12/27 02:08
→ FLJX : 那就raid6或raid51吧 12/27 02:08
推 lsc36 : 推樓上danny8376大的連結 12/27 02:11
推 felaray : 在現今公有雲的服務中,就算號稱99.95%的可靠性, 12/27 02:17
→ felaray : 也是包含要做異地備援的部分..所以只能說分散儲存 12/27 02:18
→ felaray : 也是一個必要的選項.. 12/27 02:18
推 smarttb1 : danny那個連結的結論明明就是否定那個算法 假設太強 12/27 10:07
→ smarttb1 : 這篇的標題聳動 有點譁眾取寵 實務上不是這樣 12/27 10:07
→ smarttb1 : 請原PO提出實驗數據證明你的結果吧 不然沒參考價值 12/27 10:09
→ smarttb1 : 低於50%的話 rebuild個幾次就會失敗吧 12/27 10:10
→ smarttb1 : 我們公司16*4TB的RAID5磁碟陣列 怎麼換硬碟沒遇到過 12/27 10:13
推 azopper : Raid5 容錯,備份另外作 12/27 15:20
→ cowbaying : TLER是WD的ERC 不要這麼針對WD好嗎? 12/30 20:22
→ cowbaying : 另外RAID 5有校驗位元 發生URE時除非另外幾顆也掛 12/30 20:25
→ cowbaying : 不然資料是100% 12/30 20:25
→ cowbaying : 不要小看陣列的演算法好嗎? 12/30 20:26
→ cowbaying : 你可以把這篇發給各DATA CENTER 看他們理不理你... 12/30 20:27
→ corlos : 一定是爆硬碟的悲憤文wwwwwwww 12/31 14:43
→ danny8376 : DC當然不會理啊 早就沒再用RAID5了 何必管RAID5怎樣 01/02 11:41
推 avans : 推! 11/15 19:51