作者ibluemonkey (藍.猴子)
看板Python
標題[問題] lxml問題
時間Thu Jan 3 19:34:40 2013
大家好,初學python約1年,
這次使用lxml想要抓blog中的東西
但是有個地方一直無法抓成功
下面是網頁的原始碼
<div class="boxCategory1">
<a onClick="onclick_folder(document.
getElementById('HiddenCategoryFolder_4362075'),
document.getElementById('CategoryFolder_4362075'),
'
http://l.yimg.com/e/serv/blog/img/', '1');" >
<img id="CategoryFolder_4362075"
src="
http://l.yimg.com/e/serv/blog/img/plus.gif" />
文字1</a>
<a href="
http://www.xxx.xxx">文字2</a>
</div>
我寫的code是這樣
allTitles = blogContent.xpath(
"//div[@class='boxcategory1']//a")
for title
in allTitles:
print title.text
如果是像
文字2就可以成功抓到印出來
但是
文字1就無法
會是空白
請問是哪裡寫錯了呢@@"
謝謝指教
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 140.124.183.36
→ kilfu0701:用lxml ? 01/03 21:25
對 沒錯!
推 NolandTA:試試pyquery吧 你會愛上的 01/04 10:03
謝謝推薦!!! 等下下課試試看!!
※ 編輯: ibluemonkey 來自: 140.124.183.36 (01/04 10:09)
※ 編輯: ibluemonkey 來自: 140.124.183.36 (01/04 10:11)
推 kilfu0701:試看看 list(title.itertext()) 01/04 10:42
之後是用這個方法寫出來的
感謝!!!!!!
推 plover:中間夾 img tag 01/04 23:58
推 ckclark:title.xpath("text()")或是之前xpath("(前略)//a/text()") 01/05 01:08
推 bob123:你沒注意階層的關係.. 你要的是print title.text_content() 01/06 23:38
也謝謝樓上三位大大的意見!!!
※ 編輯: ibluemonkey 來自: 140.124.183.36 (01/08 20:44)