看板 Python 關於我們 聯絡資訊
小弟是python新手 最近剛開始學習爬蟲 但是最近遇到一個問題 就是怎麼都移除不了<li> 以下部分是程式碼 import urllib.request import re from bs4 import BeautifulSoup as bs4 page = urllib.request.urlopen('http://health.udn.com/disease/sole/185'); html = str(page.read(),'utf-8') soup = bs4(html, 'html.parser') s = soup.select('.outbreak > ul') s = s[0] print(s) 輸出結果為: <ul><li>隨年齡增長而提高。男性大於45歲,女性大於55歲,又男性發生率高於女性。 </li><li>患有高血壓、糖尿病、高血脂等疾病者。尤其糖尿病患常合併有三高,加上多 重代謝異常,壞膽固醇容易囤積在血管內,造成大規模阻塞病變。</li><li>情緒容易緊 張、易怒、憂慮和恐慌者。</li><li>過度勞累、生活壓力大者。</li><li>缺乏規律運動 習慣者。</li><li>膽固醇、血脂肪及三酸甘油脂數值過高者。</li><li>菸癮者,因抽煙 會加速粥狀動脈硬化。</li><li>冠狀動脈心臟病患者,或有冠狀動脈心臟病家族史者。 患者因動脈硬化血管腔狹窄,很容易造成阻塞。</li></ul> 煩請各位高手指點了 謝謝大家 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 180.176.90.103 ※ 文章網址: https://www.ptt.cc/bbs/Python/M.1462877377.A.7DC.html
obelisk0114: 請看 beautifulsoup 的官方文件,裡面有寫 05/10 19:49
octantis: 看你是要全部抓一起還是一個個抓,全部抓一起用s.text 05/10 21:30
octantis: 分開抓用s.strings或s.elements.text 05/10 21:35
woogee: print s.text 05/11 04:55
ripple0129: 你乾脆用regex自己把tag移除掉 05/12 01:41
aitbtitw: 謝謝各位。已經解決了 05/12 15:44