看板 java 關於我們 聯絡資訊
※ 引述《vy (鳳凰城太陽)》之銘言: 我想要用Java控制Firefox 我有一份URL list 想叫Firefox依照這份list去抓htm 請問大致的作法為何? (或關鍵字) 謝謝 -- My Phoenix Suns 2007 Centers: Dirk Nowitzki -41 Amare Stoudemire - 1 Power Forwards: Kevin Garnett -21 Andrei Kirilenko -47 Small Forwards: Shawn Marion -31 Michael Redd -22 Gilbert Arenas - 0 Shooting Guards: LeBron James -23 Ray Allen -34 Leandro Barbosa -10 Point Guards: Steve Nash -13 Baron Davis - 5 -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 123.192.192.136
qrtt1:有沒有不直接用 java 抓的理由? 11/16 13:36
vy:我用Java是逐行抓 感覺比較慢 11/16 13:42
vy:所以想改用Firefox 看能不能一次抓整頁 11/16 13:43
PsMonkey:囧... FireFox 抓網頁也是抓串流資料阿... 甘有差? 11/16 13:52
superlubu:只是想要抓網頁... 有很多 software 可以用罷 /_\ 11/16 15:08
superlubu:WinHttrack 就是其中之一 11/16 15:09
TonyQ:別鬧了 , 絕對不會比較慢 XD 11/16 17:48
TonyQ:browser 本身會慢是因為要對純文字解譯成畫面 還有下載圖片 11/16 17:49
TonyQ:你用純Socket 去抓還可以省掉轉譯純文字的部份 11/16 17:50
我只需要文字 不用圖片 我目前就是用程式在抓的 另外一個想藉由Firefox的主要原因 就是有些網站很聰明 你用程式抓 他會擋 用Firefox可以避開這個困擾 WinHttrack 有給你URL清單 全部抓回來的功能嗎? (不是要砍站 是很多不同的網站) -- My Phoenix Suns 2007 Centers: Dirk Nowitzki -41 Amare Stoudemire - 1 Power Forwards: Kevin Garnett -21 Andrei Kirilenko -47 Small Forwards: Shawn Marion -31 Michael Redd -22 Gilbert Arenas - 0 Shooting Guards: LeBron James -23 Ray Allen -34 Leandro Barbosa -10 Point Guards: Steve Nash -13 Baron Davis - 5 -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 123.192.192.136
superlubu:WinHttrack 就是有個地方讓你放 URL 清單全抓回來啊 11/16 20:23
superlubu:還可以設定不抓 jpg 之類的圖檔 11/16 20:24
Incyght:把常用瀏覽器會送出的 header 印出來看 11/16 20:34
Incyght:依樣畫葫蘆把 header 添加到你寫的 request 中~~~就行了 11/16 20:34
slalala:.................................... 11/16 20:44
qrtt1:#6256 11/16 21:23
vy:感謝諸位大德 ^^ 11/16 21:24