作者percentage (九)
看板Python
標題[問題] 用urllib.request抓網頁的問題
時間Mon May 6 12:44:16 2013
各位大大好,小弟最近剛接觸python沒多久
最近嘗試使用urllib.request來抓取網站資料...
打算抓下來之後,再利用lxml等package來分析內容,看網頁有無變化。
然而,我照最基本的教學練習時,就卻出現了以下的狀況。
===================================================
先利用這段script抓網頁
===================================================
import urllib.request as url
fh = url.urlopen('
http://www.python.org')
content = fh.read().decode('utf8')
with open('test', 'w') as fd:
fd.write(content)
===================================================
再利用lxml監控內容
===================================================
import lxml.etree as ET
tree = ET.parses('test')
^^^^^^
每次一做到這行的時候,就會出現lxml.etreeSyntaxError, ndash not defined
...
...
...
想請問各位大大,遇到網頁裡有特殊字元的時候,是要如何處理呢?
又或是大大們有建議別的、更好的監控網頁變化的方法?
謝謝!
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 140.112.18.213
→ swpoker:特殊字元 : errors = 'ignore' 無視錯誤 05/06 13:23
→ swpoker:很多的html就不是合法的xml,可是瀏覽器還是可以,所以.. 05/06 13:24