[問題] 半桶水請問一個爬蟲post問題

作者coeric ( )

看板Python

標題[問題] 半桶水請問一個爬蟲post問題

時間Thu Dec 15 13:34:43 2016

單純想爬保險公司營業處的資訊為何傳回來的都是空值？ import urllib,urllib2 import re from time import * url="https://www.nanshanlife.com.tw/NanshanWeb/branches/query" request = urllib2.Request(url) request.add_header("User-Agent","Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/47.0.2526.106 Safari/537.36") request.add_header("Referer","https://www.nanshanlife.com.tw/NanshanWeb/branches/74") form_data = { "county":'台北市', "town":'信義區' } form_data = urllib.urlencode(form_data) response = urllib2.urlopen(request,data=form_data) html=response.read() print html -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 175.111.41.15 ※ 文章網址: https://www.ptt.cc/bbs/Python/M.1481780087.A.051.html

推 orafrank: 對阿到底少了什麼 ? cookie? 12/15 15:03

推 Kagami: https://goo.gl/xqZkVv https://goo.gl/S44yt8 12/15 17:59

推 sky800507: http://pastebin.com/qtLrs2u2 12/15 21:51

→ sky800507: 抓下來是json格式唷 12/15 21:54

→ coeric: 感謝各位大大.............少了一行"Content-Type" 12/15 22:37

→ coeric: 之前在爬全家店舖時，也發生過類似的狀況.. 看得到吃不到 12/15 22:54

→ coeric: 少一行Referer......... 12/15 22:54

→ coeric: 那是否每次乾脆都把Request Headers的訊息都附上去？ 12/15 22:55

推 shadowjohn: 有的網站就是會龜毛的檢查某一頁header 12/16 15:51

→ shadowjohn: 至少能擋掉一堆不會爬的 12/16 15:51

推 shadowjohn: 之前就有網站檢查 HTTP_ACCEPT_LANGUAGE 12/16 15:53

→ shadowjohn: 你沒附抓到三次就ban整天... 12/16 15:53

→ shadowjohn: 盡可能完整的偽造成瀏覽器的格式 12/16 15:54

→ shadowjohn: 直接cut curl的內容來改也行 12/16 15:54

→ coeric: 所以我就是那個被擋在外面的............XDDDD 12/16 22:23