看板 Python 關於我們 聯絡資訊
單純想爬保險公司營業處的資訊 為何傳回來的都是空值? import urllib,urllib2 import re from time import * url="https://www.nanshanlife.com.tw/NanshanWeb/branches/query" request = urllib2.Request(url) request.add_header("User-Agent","Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/47.0.2526.106 Safari/537.36") request.add_header("Referer","https://www.nanshanlife.com.tw/NanshanWeb/branches/74") form_data = { "county":'台北市', "town":'信義區' } form_data = urllib.urlencode(form_data) response = urllib2.urlopen(request,data=form_data) html=response.read() print html -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 175.111.41.15 ※ 文章網址: https://www.ptt.cc/bbs/Python/M.1481780087.A.051.html
orafrank: 對阿 到底少了什麼 ? cookie? 12/15 15:03
sky800507: http://pastebin.com/qtLrs2u2 12/15 21:51
sky800507: 抓下來是json格式唷 12/15 21:54
coeric: 感謝各位大大.............少了一行"Content-Type" 12/15 22:37
coeric: 之前在爬全家店舖時,也發生過類似的狀況.. 看得到 吃不到 12/15 22:54
coeric: 少一行Referer......... 12/15 22:54
coeric: 那是否每次乾脆都把Request Headers的訊息都附上去? 12/15 22:55
shadowjohn: 有的網站就是會龜毛的檢查某一頁header 12/16 15:51
shadowjohn: 至少能擋掉一堆不會爬的 12/16 15:51
shadowjohn: 之前就有網站檢查 HTTP_ACCEPT_LANGUAGE 12/16 15:53
shadowjohn: 你沒附抓到三次就ban整天... 12/16 15:53
shadowjohn: 盡可能完整的偽造成瀏覽器的格式 12/16 15:54
shadowjohn: 直接cut curl的內容來改也行 12/16 15:54
coeric: 所以 我就是那個被擋在外面的............XDDDD 12/16 22:23