看板 java 關於我們 聯絡資訊
上次寫了這個之後, 為了抗拒server的問題 寫了幾個sleep,讓他跑一跑就睡一下.. 躲過server block IP 的機制... 現在我總共要在這個server抓取資料 他的網址是以流水號去命名,共有4000萬筆… 而且並不是所有的編號網址裡面都有資料 可能4000萬筆裡面只有300萬筆是有資料的,(不確定到底有多少筆有資料) 我也抓不到他流水編號的規則… 所以無法準確的抓到目標的資料, 只能一個一個判斷,判斷是否存在網頁, 存在時,抓取下來,scanner他的html檔, 再抓取裡面的資料,不過這些我都解決了, 現在要解決的是如何克服時間的問題... 我只能用stupid的方法… 從1 run到 4000萬...(無規則性) 請問一下有沒有什麼比較聰明的方法嗎? 如果我這樣不眠不休(當然指電腦xd)的run下去 至少快要一年去了.... 好像問了一個跟java沒關的問題... but 用java有辦法克服嗎? 謝謝指導 ※ 引述《Gitangan (周大貓)》之銘言: : 最近寫一個java, : 抓取網頁上的內容, : 再來處理,擷取html裡的內容文字, : 可是在抓取網頁時, : 抓了幾些時間,譬如說10分鐘 or 1小時後, : 就會出現 : Exception in thread "main" java.io.IOException: Server returned HTTP response : code: 500 for URL: http://www.XXXX.com.tw/ : at sun.net.www.protocol.http.HttpURLConnection.getInputStream(Unknown Source) : 錯誤的這個網頁,實際貼到ie裡,是有網頁的。 -- 你有一種宅男的...神祕感 -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 122.125.105.40
PsMonkey:我只能說,建議你 hack 那個 Server [逃] 04/16 12:35
kyoby:求hack server的方法... 04/16 13:06
godfat:其實有些不見得真的是某個規則,而是藏在哪裡的資料 04/16 13:15
qrtt1:你那麼需要他的資料, 花錢跟他買吧XD 04/16 14:11
Gitangan:囧z 這個問題也是不可抗拒嗎XD 04/16 15:22
godfat:其實不一定,有時候前端是能找到一些資訊的 04/16 15:27
kyoby:不如貼url大家分析下... 04/16 15:33
Gitangan:17640598 ~ 54810514 我要從17640598 抓到 54810514... 04/16 15:50
Gitangan:不是每個編號裡面都有東西 ... 04/16 15:52
yuekun:300萬筆不是小數目耶 怎麼不試著跟webmaster討論一下 04/16 22:48
drumrick:沒有上一筆下一筆的link嗎 或是rss之類的... 04/16 23:45
Gitangan:這四千萬個流水號 可能原本都有東西 可是時間久了 太久沒 04/17 01:21
Gitangan:有完成程序,系統會把這個編號的內容刪掉,形成空號... 04/17 01:22
Gitangan:網站的頁面上看不到17640598號碼的網頁了..是自己輸入才 04/17 01:29
Gitangan:有的,因為太老遠的資料,所以用下一頁也找不到... 04/17 01:33
TonyQ:你多找幾個proxy , 一次用多個proxy 同時去存取 , 速度應該 04/17 03:34
TonyQ:可以快上幾倍?.? 04/17 03:40
Gitangan:樓上這個我也有想過XD 只是不會寫= = 04/17 07:08
TonyQ:proxy是個參數而已 你是用httpclient? 我下班再找找sample 04/17 19:18
Gitangan:這不是用httpclient 話說之前你教我用的httpclient我也 04/17 23:43
Gitangan:還沒弄懂 囧z 04/17 23:46
slalala:寫封信 跟網站要資料.......比較快XD 04/19 01:13
Gitangan:試過了XD 04/19 03:16