[問題] 抓取完整網頁內容

作者kuan0817 ()

看板Python

標題[問題] 抓取完整網頁內容

時間Tue May 29 19:29:32 2012

瀏覽器軟體可以直接手動存取完整網頁內容存下來的html裡, 圖片或是javascript等的路徑會自動更改成相對路徑來做參考但是好像不只是路徑有改, 其實整個html的部分編排好像都有改變這目前有甚麼library可以做到嗎? 或是能做到一定的程度原本想要自己parse內容的方式做出來但是發現好像不是我想像的那樣容易... 所以想來問問看 (主要是希望之後網頁有可閱讀性, 而不是打開之後東缺西缺) 謝謝^^ -- Name Po Mins FG 3Pt FT Off Reb Ast Stl BS PF Pts V.Divac C 29.9 .467 .240 .711 2.00 7.20 3.5 1.05 1.32 3.00 10.0 C.Webber F 39.3 .461 .238 .606 2.40 10.6 5.4 1.59 1.33 3.10 23.1 P.Stojakovic F 34.1 .483 .387 .874 0.90 5.50 2.0 0.99 0.07 2.00 19.3 D.Christie G 33.9 .480 .399 .809 0.70 4.30 4.7 2.28 0.47 2.30 9.4 M.Bibby G 33.5 .469 .407 .863 0.60 2.70 5.2 1.31 0.15 1.70 15.9 -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 140.116.82.131 ※ 編輯: kuan0817 來自: 140.116.82.131 (05/29 19:30)

推 IAMPF:wget? 05/29 19:41

→ tjjh89017:推wget -k簡單又方便XD 05/29 19:54

→ kdjf:wget -k -E -p [-H(cross host)] 05/29 23:54

→ poopoo888888:BeautifulSoup ? 05/30 11:35

→ yudsx:推wget 05/30 12:41

→ lulala453:Try PyWebkit 06/16 14:22

→ lulala453:看錯內容了，我以為你要做 crawler Orz ... 06/16 14:23