看板 Cloud 關於我們 聯絡資訊
※ 引述《gmoz ( This can't do that. )》之銘言: : 這幾天在對MapReduce做一些survey : 不過有個地方我不太了解細節 o.o : 就是google用來解決starggles的Backup Task : 原文如下: : We have a general mechanism to alleviate the problem : of stragglers. When a MapReduce operation is close : to completion, the master schedules backup executions : of the remaining in-progress tasks. The task is marked : as completed whenever either the primary or the backup : execution completes. : 請問有人知道這個實際運作的細節 : 或是哪邊有資料可以看嗎? The problem of stragglers是說,MapReduce指派每個工作是試試把工作送出去. 工作在遠端能不能完成,無法確定. 所以在主控端做的事情是, 它一邊派送工作,同時一邊將剛派送出去正在執行的工作放在queue中. 等一段時間,發現遠端機器死了,不管工作或產出資料都鎖在那個死的機器中. 而且一台死掉的機器,它本機存在的工作執行到一半,無法確定產出資料有哪些可信. MapReduce做法很簡單,就是把沒結果的工作重新派到另一台新的機器,重做. 這樣子,stragglers問題仍然有,不過MapReduce用重新派送工作避開這個問題, 而獲得高效能. -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 211.21.94.199
gmoz:好像還會弄出一份copy(backup) 同時執行 09/07 14:16
gmoz:所以他有依據會判斷遠端機器可能如y大所說的死掉了 09/07 14:19
gmoz:然後安排他的backup task也開始執行這樣@@? 09/07 14:20
gmoz:還友兩者只要有任一先完成這個task就算完成 那後(未)完成的 09/07 14:22
gmoz:要怎樣偵測和殺掉他 這是我有問題的細節 09/07 14:22
gmoz:感謝Y大的回文 09/07 14:22
yauhh:未完成的工作直接死在死掉的節點上. 09/07 15:00
yauhh:偵測嘛,我想是先偵測節點有沒有死掉. 09/07 15:01