[問題] 網頁爬蟲問題

作者senso ( )

看板Python

標題[問題] 網頁爬蟲問題

時間Wed Aug 8 23:40:42 2018

大家好，小弟在用python抓網頁遇到點問題有些網頁的內容是透過js宣染畫出來的所以我使用chromedriver的headless方式去抓取抓pchome的商品清單，我可以抓到資料，輸出的商品清單.html裡可看到商品可是商品明細頁卻無法，只看到像是基本的base from 我有爬過momo，yahoo，博客萊都有成功，就只有pchome會這樣不曉得問題出在哪裡請大大幫忙，謝謝附上source code https://github.com/godanimalsenso/PyWebTtest -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 1.160.143.183 ※ 文章網址: https://www.ptt.cc/bbs/Python/M.1533742845.A.B34.html

→ s860134: 加個　sleep 等 ajax 把網頁渲染完成 08/09 00:51

→ s860134: 商品明細頁面資料是用　js 拉後台資料庫的資料再顯示上去 08/09 00:52

→ s860134: 所以你只等 html load 完直接跑　page_source 就啥都沒 08/09 00:53

→ s860134: 當然要聰明一點可以加個　code 去檢查　js load 完了沒 08/09 00:53

→ senso: 沒想到會是這樣的問題@@ 08/09 03:42

→ senso: 我加了time.sleep(1)確實有出來了 08/09 03:42

→ senso: 我會再去找檢查js load ，謝謝 08/09 03:43

推 b24333666: pchom 要去看network的hxr 裡面有一個文件滿滿的jso 08/09 07:13

→ b24333666: n格式 08/09 07:13

→ coeric: 推樓上，有json 08/09 09:37

→ senso: 抓xhr是比較快，不過我四個站都是css selector抓指定欄位 08/09 19:46