看板 Python 關於我們 聯絡資訊
各位大大好,小弟最近剛接觸python沒多久 最近嘗試使用urllib.request來抓取網站資料... 打算抓下來之後,再利用lxml等package來分析內容,看網頁有無變化。 然而,我照最基本的教學練習時,就卻出現了以下的狀況。 =================================================== 先利用這段script抓網頁 =================================================== import urllib.request as url fh = url.urlopen('http://www.python.org') content = fh.read().decode('utf8') with open('test', 'w') as fd: fd.write(content) =================================================== 再利用lxml監控內容 =================================================== import lxml.etree as ET tree = ET.parses('test') ^^^^^^ 每次一做到這行的時候,就會出現lxml.etreeSyntaxError, ndash not defined ... ... ... 想請問各位大大,遇到網頁裡有特殊字元的時候,是要如何處理呢? 又或是大大們有建議別的、更好的監控網頁變化的方法? 謝謝! -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 140.112.18.213
swpoker:特殊字元 : errors = 'ignore' 無視錯誤 05/06 13:23
swpoker:很多的html就不是合法的xml,可是瀏覽器還是可以,所以.. 05/06 13:24