作者kuan0817 ()
看板Python
標題[問題] 抓取完整網頁內容
時間Tue May 29 19:29:32 2012
瀏覽器軟體可以直接手動存取完整網頁內容
存下來的html裡, 圖片或是javascript等的路徑會自動更改成相對路徑來做參考
但是好像不只是路徑有改, 其實整個html的部分編排好像都有改變
這目前有甚麼library可以做到嗎?
或是能做到一定的程度
原本想要自己parse內容的方式做出來
但是發現好像不是我想像的那樣容易...
所以想來問問看
(主要是希望之後網頁有可閱讀性, 而不是打開之後東缺西缺)
謝謝^^
--
Name Po Mins FG 3Pt FT Off Reb Ast Stl BS PF Pts
V.Divac C 29.9 .467 .240 .711 2.00 7.20 3.5 1.05 1.32 3.00 10.0
C.Webber F 39.3 .461 .238 .606 2.40 10.6 5.4 1.59 1.33 3.10 23.1
P.Stojakovic F 34.1 .483 .387 .874 0.90 5.50 2.0 0.99 0.07 2.00 19.3
D.Christie G 33.9 .480 .399 .809 0.70 4.30 4.7 2.28 0.47 2.30 9.4
M.Bibby G 33.5 .469 .407 .863 0.60 2.70 5.2 1.31 0.15 1.70 15.9
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 140.116.82.131
※ 編輯: kuan0817 來自: 140.116.82.131 (05/29 19:30)
推 IAMPF:wget? 05/29 19:41
→ tjjh89017:推wget -k簡單又方便XD 05/29 19:54
→ kdjf:wget -k -E -p [-H(cross host)] 05/29 23:54
→ poopoo888888:BeautifulSoup ? 05/30 11:35
→ yudsx:推wget 05/30 12:41
→ lulala453:Try PyWebkit 06/16 14:22
→ lulala453:看錯內容了,我以為你要做 crawler Orz ... 06/16 14:23