[問題] 用re抓網頁原始檔的資料

作者qazwsxedccs (嘖嘖)

看板Python

標題[問題] 用re抓網頁原始檔的資料

時間Fri Dec 2 00:57:54 2011

下面這些是網站部分的原始瑪 <hr> </pre>5 definitions found <pre> </pre>From <a href="http://www.aa.com"> title </a>: <pre> 我是要擷取的data </pre>From <a href="http://www.aa.com"> title2 </a>: <pre> 我覺得可能是要用regular expression裡面的function 把他擷取出來但我只有用到 re.split('\s(.*)\s<pre>', 上面那些str) 這東西出來會是好幾段而且有我不想要的資訊請問各位大大有沒有更好的擷取的方法 ? -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 118.160.111.225

→ suzuke:BeautifulSoup 12/02 01:10

→ qazwsxedccs:可是BeautifulSoup好像沒有支援python 3.2 Q_Q 12/02 01:52

→ suzuke:好像是~ 12/02 02:27

推 danqing:re.search() 12/02 07:24

推 NolandTA:pyquery 12/02 09:29

→ NolandTA:有支援3.2 以jquery的方式擷取資料 12/02 09:29

→ bob123:re.findall() 12/03 00:06

推 alex0914:lxml+xpath 12/04 01:37