作者Gitangan (周大貓)
看板java
標題[問題] 抓取網頁時所產生的問題...
時間Wed Mar 26 17:47:36 2008
最近寫一個java,
抓取網頁上的內容,
再來處理,擷取html裡的內容文字,
可是在抓取網頁時,
抓了幾些時間,譬如說10分鐘 or 1小時後,
就會出現
Exception in thread "main" java.io.IOException: Server returned HTTP response
code: 500 for URL:
http://www.XXXX.com.tw/
at sun.net.www.protocol.http.HttpURLConnection.getInputStream(Unknown Source)
錯誤的這個網頁,實際貼到ie裡,是有網頁的。
--
十個男人七個宅八個宅九個宅還是宅宅宅宅宅。
-正妹
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 122.125.96.72
→ kyoby:拜托Thread.sleep一下吧,人家服務器負荷很大的啦... 03/26 17:48
→ Gitangan:有tread.sleep 了@@"抓取30筆停10秒 03/26 17:49
推 kyoby:那就catch掉那個異常,如果沒啥影響的話... 03/26 17:53
→ Gitangan:謝 我怎沒想到= = 03/26 17:59
推 PsMonkey:Server 的問題是沒辦法抵抗的 XD 03/26 19:24