看板 Soft_Job 關於我們 聯絡資訊
版上的各位大大你好,因為實驗室研究的關係想跟各位請教一些問題 1. 各位會用Map Reduce的方法寫怎樣的應用呢? 2. 各位寫Map Redue的code的時候有出現過bug嗎?有的話是怎樣的bug呢? 實驗室想做Map Reduce程式的驗證,為此我們想要知道各位會在怎樣的應用上 使用Map Reduce的方法,有遭遇到怎樣的bug。我們需要知道大家coding上容易 出現怎樣的bug,我們才有辦法產生相對應的abstract model,因為目前看到的 課本上的應用都比較簡單一些,比較難想像過程中需要考量的問題。不知版上的 大家能不能分享一下coding的經驗,謝謝大家。 -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 1.34.90.207
plover:小弟是懶人,只會用PIG分析資料 10/08 22:32
guest2:樓上大大可以說得仔細一些嗎?像是分析怎樣的資料? 10/08 22:36
guest2:程式有過bug嗎? 10/08 22:36
guest2:先謝謝p大了o(_ _)o 10/08 22:37
realmeat:就分析一些一台電腦算太久的資料 10/08 23:44
realmeat:Bug種類很多,當然也有不熟係運作耍蠢的也有 10/08 23:45
PRAM:可怕,做研究不去大量閱讀paper卻來這裡問一問就能建出model 10/08 23:50
PRAM:你這些問題當你去廣泛讀個幾十篇paper就有了,難不成你以後 10/08 23:51
PRAM:論文上參考文獻要寫引用自PTT第幾篇文章嗎? 10/08 23:52
guest2:給P大,我們實驗室想探討的問題跟之前PAPER討論的問題不同 10/08 23:54
guest2:之前的探討會著重在scalability、Fault tolerance 10/08 23:56
guest2:改善效能,增加data flow的Flexible 10/08 23:56
guest2:我們想做的事是利用一些MODEL CHECKING的技巧 10/08 23:58
guest2:想辦法驗證程式是否符合某些條件 10/08 23:58
guest2:想知道有實作經驗的人通常是在那裡容易出現Bug 10/08 23:59
guest2:網路上能看到複雜一些的例子大概就是machine learning 10/09 00:00
guest2:或是一些ReverseWeb-Link Graph的應用 10/09 00:02
guest2:不過身邊沒有人有使用的經驗,所以想上板問各位 10/09 00:02
補充說明一下,我知道做研究閱讀大量的PAPER是必要的,不過在cluster上的計算 程式本身正確與否一直不是這個問題討論的重點,之前討論的方向也一直是以我前 述的問題為主,也有一些驗證安全性的討論。 我想知道並不是大家告訴我Model要怎麼建,而是大家有沒有CODE寫完卻發現跟當初 預期的結果不一樣的問題。就像大家在寫C program時會寫assertion檢查CODE是否 正確,確保程式有如當初所想的方式運行,即使如此可能還是會因為一些原因導致 結果與當初所想的不同。我想知道的是在大家的經驗中有沒有因為沒有考慮到平台 的特性就放上去跑導致結果不如預期的,MAP REDUCE要能做的基本條件就是運算 跟data order是無關的,舉例而言找出一串數列的最大值就跟data order無關,而 這種先天的限制我相信大家使用時都知道,不過有沒有一些其他容易犯的錯誤呢? 我的問題當然可以定義在檢查大家的運算是否跟data order有關這種問題上,不過 如果大家都知道那我再幫大家檢查這種問題就顯得有點畫蛇添足了,所以才會上來 請問大家有沒有遇過這種情形,不然即使研究做出來也沒有什麼實用價值。如果 各位覺得不妥,那先抱歉,我等等就刪文。謝謝大家的指教。
guest2:r大可以分享你遇到的bug嗎? 10/09 00:04
realmeat:比較討厭見到out of heap,不過我碰到狀況牽涉層面蠻廣 10/09 00:08
plover:在T社能夠分析的資料也就那些而已 10/09 00:13
plover:就看看最近十大熱門病毒是哪些 10/09 00:14
guest2:恩恩,先謝謝各位的回答 10/09 00:20
guest2:想進一步請問各位,有沒有那種程式可以正常執行 10/09 00:21
realmeat:算是人為操作不當造成的 10/09 00:22
guest2:可是跟預期結果不一樣的情形發生過呢? 10/09 00:22
realmeat:到是沒見過 10/09 00:23
guest2:了解,非常感謝R大 10/09 00:24
※ 編輯: guest2 來自: 1.34.90.207 (10/09 01:20)
SansWord:感覺好像我以前 lab 會做的事 10/09 08:42
exhentai:我的論文是寫把單機程式datamining轉成 10/09 11:15
exhentai:map-reduce版啦,主要瓶頸會在i/o上 10/09 11:16
exhentai:當初在寫的時候heap大小也造成我很多不便 10/09 11:19
exhentai:所以我很多metadata要靠hdfs跟hbase儲存 10/09 11:20
exhentai:最後得到的結論是,沒事別用map-reduce,除非資料量超大 10/09 11:22
YunJonWei:Hadoop只是 MapReduce的一種實作(Implementation) 10/09 20:06
gmoz:你問的問題也太大 10/09 21:01
guest2:謝謝大家,問題這麼大是想聽聽各位的經驗分享 10/09 21:40