[問題] lxml問題

作者ibluemonkey (藍．猴子)

看板Python

標題[問題] lxml問題

時間Thu Jan 3 19:34:40 2013

大家好,初學python約1年, 這次使用lxml想要抓blog中的東西但是有個地方一直無法抓成功下面是網頁的原始碼 <div class="boxCategory1"> <a onClick="onclick_folder(document. getElementById('HiddenCategoryFolder_4362075'), document.getElementById('CategoryFolder_4362075'), 'http://l.yimg.com/e/serv/blog/img/', '1');" > <img id="CategoryFolder_4362075" src="http://l.yimg.com/e/serv/blog/img/plus.gif" /> 文字1</a> <a href="http://www.xxx.xxx">文字2</a> </div> 我寫的code是這樣 allTitles = blogContent.xpath("//div[@class='boxcategory1']//a") for title in allTitles: print title.text 如果是像文字2就可以成功抓到印出來但是文字1就無法會是空白請問是哪裡寫錯了呢@@" 謝謝指教 -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 140.124.183.36

→ kilfu0701:用lxml ? 01/03 21:25

對沒錯!

推 NolandTA:試試pyquery吧你會愛上的 01/04 10:03

謝謝推薦!!! 等下下課試試看!! ※ 編輯: ibluemonkey 來自: 140.124.183.36 (01/04 10:09) ※ 編輯: ibluemonkey 來自: 140.124.183.36 (01/04 10:11)

推 kilfu0701:試看看 list(title.itertext()) 01/04 10:42

之後是用這個方法寫出來的感謝!!!!!!

推 plover:中間夾 img tag 01/04 23:58

推 ckclark:title.xpath("text()")或是之前xpath("(前略)//a/text()") 01/05 01:08

推 bob123:你沒注意階層的關係.. 你要的是print title.text_content() 01/06 23:38

也謝謝樓上三位大大的意見!!! ※ 編輯: ibluemonkey 來自: 140.124.183.36 (01/08 20:44)