[問題] 如何移除tag保留裡面內容呢?

作者aitbtitw (你好)

看板Python

標題[問題] 如何移除tag保留裡面內容呢?

時間Tue May 10 18:49:35 2016

小弟是python新手最近剛開始學習爬蟲但是最近遇到一個問題就是怎麼都移除不了<li> 以下部分是程式碼 import urllib.request import re from bs4 import BeautifulSoup as bs4 page = urllib.request.urlopen('http://health.udn.com/disease/sole/185'); html = str(page.read(),'utf-8') soup = bs4(html, 'html.parser') s = soup.select('.outbreak > ul') s = s[0] print(s) 輸出結果為: <ul><li>隨年齡增長而提高。男性大於45歲，女性大於55歲，又男性發生率高於女性。 </li><li>患有高血壓、糖尿病、高血脂等疾病者。尤其糖尿病患常合併有三高，加上多重代謝異常，壞膽固醇容易囤積在血管內，造成大規模阻塞病變。</li><li>情緒容易緊張、易怒、憂慮和恐慌者。</li><li>過度勞累、生活壓力大者。</li><li>缺乏規律運動習慣者。</li><li>膽固醇、血脂肪及三酸甘油脂數值過高者。</li><li>菸癮者，因抽煙會加速粥狀動脈硬化。</li><li>冠狀動脈心臟病患者，或有冠狀動脈心臟病家族史者。患者因動脈硬化血管腔狹窄，很容易造成阻塞。</li></ul> 煩請各位高手指點了謝謝大家 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 180.176.90.103 ※ 文章網址: https://www.ptt.cc/bbs/Python/M.1462877377.A.7DC.html

→ obelisk0114: 請看 beautifulsoup 的官方文件,裡面有寫 05/10 19:49

推 octantis: 看你是要全部抓一起還是一個個抓，全部抓一起用s.text 05/10 21:30

→ octantis: 分開抓用s.strings或s.elements.text 05/10 21:35

→ woogee: print s.text 05/11 04:55

→ ripple0129: 你乾脆用regex自己把tag移除掉 05/12 01:41

→ aitbtitw: 謝謝各位。已經解決了 05/12 15:44