作者PsMonkey (痞子軍團團長)
看板java
標題Re: [問題] 如何做一個JAVA網站下載工具?
時間Wed May 30 20:11:48 2012
※ 引述《lance70176 (十三夜)》之銘言:
: 如題 最近剛開始碰JAVA一個禮拜
: 想做一個網站下載工具, 把整個網站下載存在local host
: 相關的問題找蠻多 都只找到單一網頁下載的範例
: 還蠻多都不完整的 還是說我該去買書了呢...
因為重點在於,只要你知道怎麼將一個 url 開 connection
然後對 stream 作處理
剩下來的就是你打算作到多仔細的問題
嚴格說起來,跟你用什麼語言都沒有關係
要說有關係... 那大概就是你找到什麼語言有包比較完整的 library
(骯髒事不滅定律 XD)
根據 n 年前作的印象,你至少需要處理幾件事情:
1. 將相對路徑轉成絕對路徑
搞懂 ../ 跟 ./ 之類亂七八糟的東西吧...
2. 搞懂可以處理網頁編碼的幾個環節
從 http connection header 到 html meta 的 encoding
不然,除非你處理的都是英文 or 只想處理 UTF-8 可以解讀的
3. 搞懂 mine type 之類的鬼東西
至少要能處理是 text 跟不是 text 的部份
4. 我建議是用 hsqldb 之類的資料庫來儲存/處理
你 parser 完畢取出來的 link
這樣才有辦法比對哪些你抓過、哪些你還沒抓過
也可以一條 thread 重頭砍到底
5. 處理 query string,只判斷頭兩個 parameter
(不然你爬個 blogger 就會... 嘿嘿)
6. 這個年代這招不太行了
一卡車東西都是用 ajax 噴出來的
就降子
--
錢鍾書:
說出來的話
http://www.psmonkey.org
比不上不說出來的話
Java 版 cookcomic 版
只影射著說不出來的話
and more......
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 220.135.202.140
推 darkk6:推「一卡車東西都是用 ajax 噴出來的」 XD 05/30 21:22
推 lance70176:感謝提供些思路 在參考看看如何做 3q 05/31 16:01