[問題] 抓標籤內容的問題

作者pinkisme ()

看板RegExp

標題[問題] 抓標籤內容的問題

時間Mon Jun 9 11:53:17 2008

目前在抓標籤內容遇到一些問題比方說一個html內容某部分是下面這樣 <div> this is div1 <div> this is div2 </div> <div> this is div3 </div> </div> 請問該如何寫才能分別抓出div2和div3呢? 謝謝。 -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 140.115.156.75

推 a9:<div>([^<]+)</div> 06/09 16:18

> -------------------------------------------------------------------------- < 作者: pinkisme () 看板: RegExp 標題: Re: [問題] 抓標籤內容的問題時間: Wed Jun 11 01:51:02 2008 ※ 引述《pinkisme ()》之銘言： : 目前在抓標籤內容遇到一些問題 : 比方說一個html內容某部分是下面這樣 : <div> : this is div1 : <div> : this is div2 : </div> : <div> : this is div3 : </div> : </div> : 請問該如何寫才能分別抓出div2和div3呢? : 謝謝。有照推文給的方式去抓，不過後來發現有點小問題，因為網頁內容有某些部分在div後面還有別的tag 比如說 <div> 1 <div> <p>2 </div> <div> <p>3 </div> 4 </div> 有把推文的pattern更改去試不過還是抓不出來orz -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 140.115.223.231

推 CyberSnoopy:<div>([^(?:<div>)]*)</div> 06/12 10:01

> -------------------------------------------------------------------------- < 作者: wawawa (哇哇哇○(￣﹏￣)○) 看板: RegExp 標題: Re: [問題] 抓標籤內容的問題時間: Wed Jun 11 03:39:32 2008 ※ 引述《pinkisme ()》之銘言： : ※ 引述《pinkisme ()》之銘言： : 比如說 : <div> : 1 : <div> : <p>2 : </div> : <div> : <p>3 : </div> : 4 : </div> : 有把推文的pattern更改去試 : 不過還是抓不出來orz 你這問題其實我個人是覺得用 RE 有點苦幹如果巢狀架構都一樣那還好，但要是中間還會有不固定的標籤用 RE 有點苦 :p 建議是使用專門分析 html tag 的模組去跑，比如若你用 python 那就可以使用 Beautiful Soup [1] 之類的去分析，效果會好很多其他程式語言也有類似的東西可以使用，找找看就會有... [1] http://www.crummy.com/software/BeautifulSoup/ -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 59.104.141.2