作者ahahahahah (あああああ)
看板Python
標題[問題] 如何選取ptt內文內容
時間Fri Jan 13 22:10:05 2017
嫩嫩爬蟲新手
請問一下各位大大
爬蟲ptt如何抓下內文,我只想要爬內文就好,不要推文.....
http://i.imgur.com/BeEIMBc.jpg
(不好意思借用一下隔壁軟體板)
我用chrome檢查工具
發現內文包含在id="main-content"裡面
更下面的tag有作者、標題、推文等....
但是似乎沒有單獨內文的tag
我用suop.select('
#main-content')[0].text
但是抓下的是包含作者標題推文等一大串內容.....囧
請問要如何處理這個問題?
謝謝~
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 210.139.169.176
※ 文章網址: https://www.ptt.cc/bbs/Python/M.1484316608.A.D19.html
※ 編輯: ahahahahah (210.139.169.176), 01/13/2017 22:12:30
推 hung0724: 用re自己撈? 01/13 23:12
→ hung0724: 我看了一下 <span class="article-meta-value"> 這底下 01/13 23:14
→ hung0724: 是作者的資訊阿 01/13 23:14
推 vi000246: 用這行當結尾<span class="f2">※ 發信站: 批踢踢實業坊 01/16 01:30
推 assassinzero: 我個人也較喜歡用re 01/20 13:33