作者ks110159 (HFDragon)
看板Python
標題[問題] 爬蟲偽元素問題
時間Wed May 23 15:02:49 2018
小弟最近在練習簡單的爬蟲
使用bs抓取資料
但每每遇到 ::before ::after 之間的資料
像抓取以下中國時報的新聞標題 都無法順利抓取
https://i.imgur.com/mnC6a0p.jpg
爬了一下文發現是非html的部分
想請問有什麼方法可以解決這種js的問題
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 101.12.129.123
※ 文章網址: https://www.ptt.cc/bbs/Python/M.1527058971.A.94B.html
→ tlaceruse: 關鍵找 js 怎麼吃資料進來的。 05/23 16:40
→ tlaceruse: 如果真的找不到 那就直接模擬開啟瀏覽器選元素 一般都 05/23 16:41
→ tlaceruse: 選得到 但吃資源問題 05/23 16:41
→ ks110159: 請問t大 模擬瀏覽器選元素是使用selenium嗎 05/23 17:50
推 HybridSC: selenium 05/25 02:25
→ ks110159: 謝謝h大 05/25 09:06