[問題] 用urllib.request抓網頁的問題

作者percentage (九)

看板Python

標題[問題] 用urllib.request抓網頁的問題

時間Mon May 6 12:44:16 2013

各位大大好，小弟最近剛接觸python沒多久最近嘗試使用urllib.request來抓取網站資料... 打算抓下來之後，再利用lxml等package來分析內容，看網頁有無變化。然而，我照最基本的教學練習時，就卻出現了以下的狀況。 =================================================== 先利用這段script抓網頁 =================================================== import urllib.request as url fh = url.urlopen('http://www.python.org') content = fh.read().decode('utf8') with open('test', 'w') as fd: fd.write(content) =================================================== 再利用lxml監控內容 =================================================== import lxml.etree as ET tree = ET.parses('test') ^^^^^^ 每次一做到這行的時候，就會出現lxml.etreeSyntaxError, ndash not defined ... ... ... 想請問各位大大，遇到網頁裡有特殊字元的時候，是要如何處理呢？又或是大大們有建議別的、更好的監控網頁變化的方法？謝謝！ -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 140.112.18.213

→ swpoker:特殊字元 : errors = 'ignore' 無視錯誤 05/06 13:23

→ swpoker:很多的html就不是合法的xml,可是瀏覽器還是可以,所以.. 05/06 13:24