推 a9:<div>([^<]+)</div> 06/09 16:18
> -------------------------------------------------------------------------- <
作者: pinkisme () 看板: RegExp
標題: Re: [問題] 抓標籤內容的問題
時間: Wed Jun 11 01:51:02 2008
※ 引述《pinkisme ()》之銘言:
: 目前在抓標籤內容遇到一些問題
: 比方說一個html內容某部分是下面這樣
: <div>
: this is div1
: <div>
: this is div2
: </div>
: <div>
: this is div3
: </div>
: </div>
: 請問該如何寫才能分別抓出div2和div3呢?
: 謝謝。
有照推文給的方式去抓,不過後來發現有點小問題,
因為網頁內容有某些部分在div後面還有別的tag
比如說
<div>
1
<div>
<p>2
</div>
<div>
<p>3
</div>
4
</div>
有把推文的pattern更改去試
不過還是抓不出來orz
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 140.115.223.231
推 CyberSnoopy:<div>([^(?:<div>)]*)</div> 06/12 10:01
> -------------------------------------------------------------------------- <
作者: wawawa (哇哇哇○( ̄﹏ ̄)○) 看板: RegExp
標題: Re: [問題] 抓標籤內容的問題
時間: Wed Jun 11 03:39:32 2008
※ 引述《pinkisme ()》之銘言:
: ※ 引述《pinkisme ()》之銘言:
: 比如說
: <div>
: 1
: <div>
: <p>2
: </div>
: <div>
: <p>3
: </div>
: 4
: </div>
: 有把推文的pattern更改去試
: 不過還是抓不出來orz
你這問題其實我個人是覺得用 RE 有點苦幹
如果巢狀架構都一樣那還好,但要是中間還會有不固定的標籤
用 RE 有點苦 :p
建議是使用專門分析 html tag 的模組去跑,比如若你用 python
那就可以使用 Beautiful Soup [1] 之類的去分析,效果會好很多
其他程式語言也有類似的東西可以使用,找找看就會有...
[1] http://www.crummy.com/software/BeautifulSoup/
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 59.104.141.2