[請益] MapReduce coding 經驗

作者guest2 (wayne)

看板Soft_Job

標題[請益] MapReduce coding 經驗

時間Tue Oct 8 22:30:06 2013

版上的各位大大你好，因為實驗室研究的關係想跟各位請教一些問題 1. 各位會用Map Reduce的方法寫怎樣的應用呢? 2. 各位寫Map Redue的code的時候有出現過bug嗎?有的話是怎樣的bug呢? 實驗室想做Map Reduce程式的驗證，為此我們想要知道各位會在怎樣的應用上使用Map Reduce的方法，有遭遇到怎樣的bug。我們需要知道大家coding上容易出現怎樣的bug，我們才有辦法產生相對應的abstract model，因為目前看到的課本上的應用都比較簡單一些，比較難想像過程中需要考量的問題。不知版上的大家能不能分享一下coding的經驗，謝謝大家。 -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 1.34.90.207

推 plover:小弟是懶人，只會用PIG分析資料 10/08 22:32

→ guest2:樓上大大可以說得仔細一些嗎?像是分析怎樣的資料? 10/08 22:36

→ guest2:程式有過bug嗎? 10/08 22:36

→ guest2:先謝謝p大了o(_ _)o 10/08 22:37

→ realmeat:就分析一些一台電腦算太久的資料 10/08 23:44

→ realmeat:Bug種類很多，當然也有不熟係運作耍蠢的也有 10/08 23:45

推 PRAM:可怕，做研究不去大量閱讀paper卻來這裡問一問就能建出model 10/08 23:50

→ PRAM:你這些問題當你去廣泛讀個幾十篇paper就有了，難不成你以後 10/08 23:51

→ PRAM:論文上參考文獻要寫引用自PTT第幾篇文章嗎? 10/08 23:52

→ guest2:給P大，我們實驗室想探討的問題跟之前PAPER討論的問題不同 10/08 23:54

→ guest2:之前的探討會著重在scalability、Fault tolerance 10/08 23:56

→ guest2:改善效能，增加data flow的Flexible 10/08 23:56

→ guest2:我們想做的事是利用一些MODEL CHECKING的技巧 10/08 23:58

→ guest2:想辦法驗證程式是否符合某些條件 10/08 23:58

→ guest2:想知道有實作經驗的人通常是在那裡容易出現Bug 10/08 23:59

→ guest2:網路上能看到複雜一些的例子大概就是machine learning 10/09 00:00

→ guest2:或是一些ReverseWeb-Link Graph的應用 10/09 00:02

→ guest2:不過身邊沒有人有使用的經驗，所以想上板問各位 10/09 00:02

補充說明一下，我知道做研究閱讀大量的PAPER是必要的，不過在cluster上的計算程式本身正確與否一直不是這個問題討論的重點，之前討論的方向也一直是以我前述的問題為主，也有一些驗證安全性的討論。我想知道並不是大家告訴我Model要怎麼建，而是大家有沒有CODE寫完卻發現跟當初預期的結果不一樣的問題。就像大家在寫C program時會寫assertion檢查CODE是否正確，確保程式有如當初所想的方式運行，即使如此可能還是會因為一些原因導致結果與當初所想的不同。我想知道的是在大家的經驗中有沒有因為沒有考慮到平台的特性就放上去跑導致結果不如預期的，MAP REDUCE要能做的基本條件就是運算跟data order是無關的，舉例而言找出一串數列的最大值就跟data order無關，而這種先天的限制我相信大家使用時都知道，不過有沒有一些其他容易犯的錯誤呢? 我的問題當然可以定義在檢查大家的運算是否跟data order有關這種問題上，不過如果大家都知道那我再幫大家檢查這種問題就顯得有點畫蛇添足了，所以才會上來請問大家有沒有遇過這種情形，不然即使研究做出來也沒有什麼實用價值。如果各位覺得不妥，那先抱歉，我等等就刪文。謝謝大家的指教。

→ guest2:r大可以分享你遇到的bug嗎? 10/09 00:04

→ realmeat:比較討厭見到out of heap，不過我碰到狀況牽涉層面蠻廣 10/09 00:08

推 plover:在T社能夠分析的資料也就那些而已 10/09 00:13

→ plover:就看看最近十大熱門病毒是哪些 10/09 00:14

→ guest2:恩恩，先謝謝各位的回答 10/09 00:20

→ guest2:想進一步請問各位，有沒有那種程式可以正常執行 10/09 00:21

→ realmeat:算是人為操作不當造成的 10/09 00:22

→ guest2:可是跟預期結果不一樣的情形發生過呢? 10/09 00:22

→ realmeat:到是沒見過 10/09 00:23

→ guest2:了解，非常感謝R大 10/09 00:24

※ 編輯: guest2 來自: 1.34.90.207 (10/09 01:20)

推 SansWord:感覺好像我以前 lab 會做的事 10/09 08:42

推 exhentai:我的論文是寫把單機程式datamining轉成 10/09 11:15

→ exhentai:map-reduce版啦,主要瓶頸會在i/o上 10/09 11:16

推 exhentai:當初在寫的時候heap大小也造成我很多不便 10/09 11:19

推 exhentai:所以我很多metadata要靠hdfs跟hbase儲存 10/09 11:20

→ exhentai:最後得到的結論是，沒事別用map-reduce，除非資料量超大 10/09 11:22

→ YunJonWei:Hadoop只是 MapReduce的一種實作(Implementation) 10/09 20:06

推 gmoz:你問的問題也太大 10/09 21:01

→ guest2:謝謝大家，問題這麼大是想聽聽各位的經驗分享 10/09 21:40