[問題] 抓取網頁遇到的問題2

作者arlu (arlu)

看板Python

標題[問題] 抓取網頁遇到的問題2

時間Fri Aug 27 15:45:53 2010

大家好，另外有一個問題想請教各位。假設我要用HTMLParser抓網頁的資料，我知道其內建有幾個函數可以使用，像是handle_startendtag、handle_starttag、 handle_endtag、handle_data…等。假設我想要抓的是以下"span title="symbol"後面的configuration(即data) <span title="symbol">configuration</span> 應該要如何操作？因為我發現handle_starttag好像只單純處理tag，而handle_data又是單純處理tag之間的data，有沒有辦法依據我想要的tag樣式去存data呢？謝謝！ Best Regards -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 60.251.19.66

推 StubbornLin:http://0rz.tw/e250z 用lxml的xpath 08/27 16:44

→ StubbornLin:tree.xpath("//span[@title='symbol']/text()") 08/27 16:45

→ arlu:喔喔！！感謝，努力研究 lxml中~ 08/30 10:24