作者qazwsxedccs (嘖嘖)
看板Python
標題[問題] 用re抓網頁原始檔的資料
時間Fri Dec 2 00:57:54 2011
下面這些是網站部分的原始瑪
<hr>
</pre><b>5 definitions found
</b><pre>
</pre><b>From <a
href="
http://www.aa.com"> title </a>:
</b><pre>
我是要擷取的data
</pre><b>From <a
href="
http://www.aa.com"> title2 </a>:
</b><pre>
我覺得可能是要用regular expression裡面的function
把他擷取出來
但我只有用到
re.split('\s(.*)\s<pre>', 上面那些str)
這東西出來會是好幾段 而且有我不想要的資訊
請問各位大大 有沒有更好的擷取的方法 ?
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 118.160.111.225
→ suzuke:BeautifulSoup 12/02 01:10
→ qazwsxedccs:可是BeautifulSoup好像沒有支援python 3.2 Q_Q 12/02 01:52
→ suzuke:好像是~ 12/02 02:27
推 danqing:re.search() 12/02 07:24
推 NolandTA:pyquery 12/02 09:29
→ NolandTA:有支援3.2 以jquery的方式擷取資料 12/02 09:29
→ bob123:re.findall() 12/03 00:06
推 alex0914:lxml+xpath 12/04 01:37