作者jasonfun44 (kk123)
看板Python
標題[問題] 爬新聞html5抓不到內文
時間Sat Oct 15 22:19:00 2022
想請教版上的專家,有先搜尋資料了,但還是爬不了新聞內文,故想請教
目前想要把新聞內文爬進來
https://reading.udn.com/read/story/122749/6680114
網頁程式如下
https://i.imgur.com/eYufIAY.png
目前程式到這一步卡住,一直抓不到內文,故要請教各位專家該怎麼調整
,謝謝。
for a in soup.select('div.story-list__news div.story-list__text h2 a '):
list_news.append(a['href'])
print (list_news)
for index, link in enumerate(list_news):
res = req.get(link)
soup_ = bs(res.text, "lxml")
print(soup_.select_one('article.article-content
div.article-content__paragraph section.article-content__editor
div.inline-ads ').get_text())
print("=" * 50)
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 118.169.5.62 (臺灣)
※ 文章網址: https://www.ptt.cc/bbs/Python/M.1665843542.A.E60.html
噓 tzouandy2818: 貼程式碼不要用圖片 貼圖片還貼成相簿 又要再點進去 10/15 22:36
→ tzouandy2818: 然後你選擇器應該打錯了 你檢查一下 10/15 22:36
※ 編輯: jasonfun44 (118.169.5.62 臺灣), 10/15/2022 22:51:50
→ jasonfun44: 已修正,抱歉,但我不知道選擇器怎麼改,我試了好幾次 10/15 22:53
→ tzouandy2818: 你先把選擇器最後的 div.inline-ads 刪掉看看 10/16 00:10
→ tzouandy2818: 最後印出來的結果裡面還有一些垃圾 留給你自己濾 10/16 00:44
→ jasonfun44: 謝謝! 10/16 13:13
推 GQward: 使用html.parser解析器爬下來的html可能會將原本在網頁上 10/20 17:06
→ GQward: 是 - -的原始碼變成!- 造成變註解形式 所以就爬不到內文 10/20 17:06
→ jasonfun44: 原來如此!!! 10/20 22:58