Fw: [問題] 求救解析HTML

作者areyo (沒有名字的怪物)

看板Python

標題Fw: [問題] 求救解析HTML

時間Fri Aug 17 20:50:43 2012

※ [本文轉錄自 RegExp 看板 #1GBZkj3E ] 作者: areyo (沒有名字的怪物) 看板: RegExp 標題: [問題] 求救解析HTML 時間: Fri Aug 17 20:40:09 2012 大家晚安小弟使用的是python 2.6的正規現在在練習解析一個網頁中某段資料如下 <h2>Department</h2> <ul id="ref_3224438011"> <li style="margin-left: -18px"><a href="http://www.amazon.com/s?ie=UTF8&page=1&rh=n%3A172282">‹ <span class="expand">Electronics</span></a></li> <li style="margin-left: -10px"><a href="http://www.amazon.com/s?ie=UTF8&page=1&rh=n%3A281407">‹ <span class="expand">Accessories & Supplies</span></a></li> <li style="margin-left: -2px"><a href="http://www.amazon.com/s?ie=UTF8&page=1&rh=n%3A172532">‹ <span class="expand">Audio & Video Accessories</span></a></li> <li style="margin-left: 24px"><strong>3D Glasses</strong></li> </ul> 我想從一個完整的html中抓出這一段我試著用線上正規檢查去試，只有土法鍊鋼出這段REG <h2>.+\n.+\n.+\n.+\n.+\n.+\n<\/ul> 發現中間都是用.+\n不斷重覆，但是卻不知道有幾層，有人可指點迷津嗎? 感恩 -- 懶惰與懦弱使愚笨成自然 -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 114.40.188.253 ※ 發信站: 批踢踢實業坊(ptt.cc) ※ 轉錄者: areyo (59.127.191.91), 時間: 08/17/2012 20:50:43

推 justlink:\S \s 試過沒有? 08/17 22:53

→ darkgerm:HTML 不要用正規 prase... 用 lxml 之類的 08/17 23:01

→ qwertmn:單純化簡你的re <h2>(.+\n)+<\/ul> 08/18 01:55

→ bob123:1.(RegExp) http://docs.python.org/library/re.html#re.S 08/18 02:46

→ bob123:or) 2. lxml.html , xpath 08/18 02:46

→ AndCycle:Beautiful Soup 08/18 03:18