推 qrtt1:有沒有不直接用 java 抓的理由? 11/16 13:36
推 vy:我用Java是逐行抓 感覺比較慢 11/16 13:42
→ vy:所以想改用Firefox 看能不能一次抓整頁 11/16 13:43
推 PsMonkey:囧... FireFox 抓網頁也是抓串流資料阿... 甘有差? 11/16 13:52
推 superlubu:只是想要抓網頁... 有很多 software 可以用罷 /_\ 11/16 15:08
→ superlubu:WinHttrack 就是其中之一 11/16 15:09
推 TonyQ:別鬧了 , 絕對不會比較慢 XD 11/16 17:48
→ TonyQ:browser 本身會慢是因為要對純文字解譯成畫面 還有下載圖片 11/16 17:49
→ TonyQ:你用純Socket 去抓還可以省掉轉譯純文字的部份 11/16 17:50
我只需要文字 不用圖片
我目前就是用程式在抓的
另外一個想藉由Firefox的主要原因
就是有些網站很聰明 你用程式抓 他會擋
用Firefox可以避開這個困擾
WinHttrack 有給你URL清單
全部抓回來的功能嗎?
(不是要砍站 是很多不同的網站)
--
My Phoenix Suns 2007
Centers: Dirk Nowitzki -41 Amare Stoudemire - 1
Power Forwards: Kevin Garnett -21 Andrei Kirilenko -47
Small Forwards: Shawn Marion -31 Michael Redd -22 Gilbert Arenas - 0
Shooting Guards: LeBron James -23 Ray Allen -34 Leandro Barbosa -10
Point Guards: Steve Nash -13 Baron Davis - 5
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 123.192.192.136
推 superlubu:WinHttrack 就是有個地方讓你放 URL 清單全抓回來啊 11/16 20:23
→ superlubu:還可以設定不抓 jpg 之類的圖檔 11/16 20:24
推 Incyght:把常用瀏覽器會送出的 header 印出來看 11/16 20:34
→ Incyght:依樣畫葫蘆把 header 添加到你寫的 request 中~~~就行了 11/16 20:34
推 slalala:.................................... 11/16 20:44
推 qrtt1:#6256 11/16 21:23
推 vy:感謝諸位大德 ^^ 11/16 21:24