作者seedman (cc)
看板Python
標題[問題] lxml抓資料有錯誤
時間Mon Apr 2 17:17:27 2012
我想用lxml中的xpath語法從imdb的中抓出演員演過的電影
演員名演過的電影名單那段的原始碼是
<div style="display:block;">
<div class="filmo-row odd" style=""> ... </div> <- Actor裡第一部電影
<div class="filmo-row even" style=""> ... </div>
...
</div>
但是我用下面的抓法
url = '
http://www.imdb.com/name/nm0000226/'
f = lxml.html.parse(url)
f.xpath('//div[@style="display:block;"]/div')
永遠都只能抓到第一部電影的資料
不知道是哪裡搞錯了?
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 98.208.56.49
推 darkgerm:我猜是這個 <div class="clear"/></div> 04/02 17:52
→ darkgerm:多一個 / 讓那個 div 被誤認成空元素 04/02 17:53
→ darkgerm:出現在 filmo-row even 的上幾行… 04/02 17:54
→ seedman:真的是這樣 感謝!!!! 我卡了很久 T_T 04/02 18:38
推 swpoker:因為HTML是很鬆散的~所以瀏覽器能顯示也不代表是正確的 04/03 10:41