看板 Python 關於我們 聯絡資訊
大家好,小弟在用python抓網頁遇到點問題 有些網頁的內容是透過js宣染畫出來的 所以我使用chromedriver的headless方式去抓取 抓pchome的商品清單,我可以抓到資料, 輸出的商品清單.html裡可看到商品 可是商品明細頁卻無法,只看到像是基本的base from 我有爬過momo,yahoo,博客萊都有成功,就只有pchome會這樣 不曉得問題出在哪裡 請大大幫忙,謝謝 附上source code https://github.com/godanimalsenso/PyWebTtest -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 1.160.143.183 ※ 文章網址: https://www.ptt.cc/bbs/Python/M.1533742845.A.B34.html
s860134: 加個 sleep 等 ajax 把網頁渲染完成 08/09 00:51
s860134: 商品明細頁面資料是用 js 拉後台資料庫的資料再顯示上去 08/09 00:52
s860134: 所以你只等 html load 完直接跑 page_source 就啥都沒 08/09 00:53
s860134: 當然要聰明一點可以加個 code 去檢查 js load 完了沒 08/09 00:53
senso: 沒想到會是這樣的問題@@ 08/09 03:42
senso: 我加了time.sleep(1)確實有出來了 08/09 03:42
senso: 我會再去找檢查js load ,謝謝 08/09 03:43
b24333666: pchom 要去看network的hxr 裡面有一個文件滿滿的jso 08/09 07:13
b24333666: n格式 08/09 07:13
coeric: 推樓上,有json 08/09 09:37
senso: 抓xhr是比較快,不過我四個站都是css selector抓指定欄位 08/09 19:46