推 plover:小弟是懶人,只會用PIG分析資料 10/08 22:32
→ guest2:樓上大大可以說得仔細一些嗎?像是分析怎樣的資料? 10/08 22:36
→ guest2:程式有過bug嗎? 10/08 22:36
→ guest2:先謝謝p大了o(_ _)o 10/08 22:37
→ realmeat:就分析一些一台電腦算太久的資料 10/08 23:44
→ realmeat:Bug種類很多,當然也有不熟係運作耍蠢的也有 10/08 23:45
推 PRAM:可怕,做研究不去大量閱讀paper卻來這裡問一問就能建出model 10/08 23:50
→ PRAM:你這些問題當你去廣泛讀個幾十篇paper就有了,難不成你以後 10/08 23:51
→ PRAM:論文上參考文獻要寫引用自PTT第幾篇文章嗎? 10/08 23:52
→ guest2:給P大,我們實驗室想探討的問題跟之前PAPER討論的問題不同 10/08 23:54
→ guest2:之前的探討會著重在scalability、Fault tolerance 10/08 23:56
→ guest2:改善效能,增加data flow的Flexible 10/08 23:56
→ guest2:我們想做的事是利用一些MODEL CHECKING的技巧 10/08 23:58
→ guest2:想辦法驗證程式是否符合某些條件 10/08 23:58
→ guest2:想知道有實作經驗的人通常是在那裡容易出現Bug 10/08 23:59
→ guest2:網路上能看到複雜一些的例子大概就是machine learning 10/09 00:00
→ guest2:或是一些ReverseWeb-Link Graph的應用 10/09 00:02
→ guest2:不過身邊沒有人有使用的經驗,所以想上板問各位 10/09 00:02
補充說明一下,我知道做研究閱讀大量的PAPER是必要的,不過在cluster上的計算
程式本身正確與否一直不是這個問題討論的重點,之前討論的方向也一直是以我前
述的問題為主,也有一些驗證安全性的討論。
我想知道並不是大家告訴我Model要怎麼建,而是大家有沒有CODE寫完卻發現跟當初
預期的結果不一樣的問題。就像大家在寫C program時會寫assertion檢查CODE是否
正確,確保程式有如當初所想的方式運行,即使如此可能還是會因為一些原因導致
結果與當初所想的不同。我想知道的是在大家的經驗中有沒有因為沒有考慮到平台
的特性就放上去跑導致結果不如預期的,MAP REDUCE要能做的基本條件就是運算
跟data order是無關的,舉例而言找出一串數列的最大值就跟data order無關,而
這種先天的限制我相信大家使用時都知道,不過有沒有一些其他容易犯的錯誤呢?
我的問題當然可以定義在檢查大家的運算是否跟data order有關這種問題上,不過
如果大家都知道那我再幫大家檢查這種問題就顯得有點畫蛇添足了,所以才會上來
請問大家有沒有遇過這種情形,不然即使研究做出來也沒有什麼實用價值。如果
各位覺得不妥,那先抱歉,我等等就刪文。謝謝大家的指教。
→ guest2:r大可以分享你遇到的bug嗎? 10/09 00:04
→ realmeat:比較討厭見到out of heap,不過我碰到狀況牽涉層面蠻廣 10/09 00:08
推 plover:在T社能夠分析的資料也就那些而已 10/09 00:13
→ plover:就看看最近十大熱門病毒是哪些 10/09 00:14
→ guest2:恩恩,先謝謝各位的回答 10/09 00:20
→ guest2:想進一步請問各位,有沒有那種程式可以正常執行 10/09 00:21
→ realmeat:算是人為操作不當造成的 10/09 00:22
→ guest2:可是跟預期結果不一樣的情形發生過呢? 10/09 00:22
→ realmeat:到是沒見過 10/09 00:23
→ guest2:了解,非常感謝R大 10/09 00:24
※ 編輯: guest2 來自: 1.34.90.207 (10/09 01:20)
推 SansWord:感覺好像我以前 lab 會做的事 10/09 08:42
推 exhentai:我的論文是寫把單機程式datamining轉成 10/09 11:15
→ exhentai:map-reduce版啦,主要瓶頸會在i/o上 10/09 11:16
推 exhentai:當初在寫的時候heap大小也造成我很多不便 10/09 11:19
推 exhentai:所以我很多metadata要靠hdfs跟hbase儲存 10/09 11:20
→ exhentai:最後得到的結論是,沒事別用map-reduce,除非資料量超大 10/09 11:22
→ YunJonWei:Hadoop只是 MapReduce的一種實作(Implementation) 10/09 20:06
推 gmoz:你問的問題也太大 10/09 21:01
→ guest2:謝謝大家,問題這麼大是想聽聽各位的經驗分享 10/09 21:40