[問題] 爬新聞html5抓不到內文

作者jasonfun44 (kk123)

看板Python

標題[問題] 爬新聞html5抓不到內文

時間Sat Oct 15 22:19:00 2022

想請教版上的專家，有先搜尋資料了，但還是爬不了新聞內文，故想請教目前想要把新聞內文爬進來 https://reading.udn.com/read/story/122749/6680114 網頁程式如下 https://i.imgur.com/eYufIAY.png 目前程式到這一步卡住，一直抓不到內文，故要請教各位專家該怎麼調整，謝謝。 for a in soup.select('div.story-list__news div.story-list__text h2 a '): list_news.append(a['href']) print (list_news) for index, link in enumerate(list_news): res = req.get(link) soup_ = bs(res.text, "lxml") print(soup_.select_one('article.article-content div.article-content__paragraph section.article-content__editor div.inline-ads ').get_text()) print("=" * 50) -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 118.169.5.62 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Python/M.1665843542.A.E60.html

噓 tzouandy2818: 貼程式碼不要用圖片貼圖片還貼成相簿又要再點進去 10/15 22:36

→ tzouandy2818: 然後你選擇器應該打錯了你檢查一下 10/15 22:36

※ 編輯: jasonfun44 (118.169.5.62 臺灣), 10/15/2022 22:51:50

→ jasonfun44: 已修正，抱歉，但我不知道選擇器怎麼改，我試了好幾次 10/15 22:53

→ tzouandy2818: 你先把選擇器最後的 div.inline-ads 刪掉看看 10/16 00:10

→ tzouandy2818: https://pastebin.com/D66hLmK1 10/16 00:21

→ tzouandy2818: https://pastebin.com/NeEac4YA 10/16 00:44

→ tzouandy2818: 最後印出來的結果裡面還有一些垃圾留給你自己濾 10/16 00:44

→ jasonfun44: 謝謝！ 10/16 13:13

推 GQward: 使用html.parser解析器爬下來的html可能會將原本在網頁上 10/20 17:06

→ GQward: 是 - -的原始碼變成!- 造成變註解形式所以就爬不到內文 10/20 17:06

→ jasonfun44: 原來如此！！！ 10/20 22:58