看板 Python 關於我們 聯絡資訊
大家好,初學python約1年, 這次使用lxml想要抓blog中的東西 但是有個地方一直無法抓成功 下面是網頁的原始碼 <div class="boxCategory1"> <a onClick="onclick_folder(document. getElementById('HiddenCategoryFolder_4362075'), document.getElementById('CategoryFolder_4362075'), 'http://l.yimg.com/e/serv/blog/img/', '1');" > <img id="CategoryFolder_4362075" src="http://l.yimg.com/e/serv/blog/img/plus.gif" /> 文字1</a> <a href="http://www.xxx.xxx">文字2</a> </div> 我寫的code是這樣 allTitles = blogContent.xpath("//div[@class='boxcategory1']//a") for title in allTitles: print title.text 如果是像文字2就可以成功抓到印出來 但是文字1就無法 會是空白 請問是哪裡寫錯了呢@@" 謝謝指教 -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 140.124.183.36
kilfu0701:用lxml ? 01/03 21:25
對 沒錯!
NolandTA:試試pyquery吧 你會愛上的 01/04 10:03
謝謝推薦!!! 等下下課試試看!! ※ 編輯: ibluemonkey 來自: 140.124.183.36 (01/04 10:09) ※ 編輯: ibluemonkey 來自: 140.124.183.36 (01/04 10:11)
kilfu0701:試看看 list(title.itertext()) 01/04 10:42
之後是用這個方法寫出來的 感謝!!!!!!
plover:中間夾 img tag 01/04 23:58
ckclark:title.xpath("text()")或是之前xpath("(前略)//a/text()") 01/05 01:08
bob123:你沒注意階層的關係.. 你要的是print title.text_content() 01/06 23:38
也謝謝樓上三位大大的意見!!! ※ 編輯: ibluemonkey 來自: 140.124.183.36 (01/08 20:44)