[問題] python淘寶爬蟲

作者dondondie (東東納命來)

看板Python

標題[問題] python淘寶爬蟲

時間Sun Feb 15 16:56:37 2015

這問題可能不是單純和python有關不過還是在這邊問問看最近在研究使用淘寶爬蟲不過剛開始就遇到了一點困難 http://0rz.tw/acJsC A網址 http://0rz.tw/inzfh B網址上面兩個都是淘寶的網址當直接看原始檔時兩個都可以看到一個名為g_page_config 含有完整網頁內容的json表格不過當我使用urllib2.urlopen去抓的時候 A網址可以抓到g_page_config的資料但B網址抓回來的似乎是完全不同的東西只要是商品搜尋的頁面似乎都會得到這樣的結果但我不太懂為什麼A可以B卻不行這樣是否代表淘寶有特別阻擋商品搜尋頁面? 只能使用模擬瀏覽器行為的方式去把網頁json都load進來後才抓? 或者有沒有方式可以達到同樣的目的? -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.25.0.247 ※ 文章網址: https://www.ptt.cc/bbs/Python/M.1423990601.A.4F1.html ※ 編輯: dondondie (114.25.0.247), 02/15/2015 18:09:10

推 jimmytzeng: 他們有用http header的user-agent擋? 02/20 14:18

→ dondondie: 我是有帶user-agent下去抓啦但不確定參數夠不夠完整 02/23 15:14

推 starengine: 有些資料可能用javascript產生的，要模擬瀏覽器才可以 02/24 13:38

→ ianleu: http://www.cnblogs.com/asmblog/archive/2013/05/07/3063 02/26 10:00

推 eight0: 我沒看到 g_page_config 02/27 11:06