作者coeric ( )
看板Python
標題[問題] 半桶水請問一個爬蟲post問題
時間Thu Dec 15 13:34:43 2016
單純想爬保險公司營業處的資訊
為何傳回來的都是空值?
import urllib,urllib2
import re
from time import *
url="
https://www.nanshanlife.com.tw/NanshanWeb/branches/query"
request = urllib2.Request(url)
request.add_header("User-Agent","Mozilla/5.0 (Macintosh; Intel Mac OS X
10_11_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/47.0.2526.106
Safari/537.36")
request.add_header("Referer","
https://www.nanshanlife.com.tw/NanshanWeb/branches/74")
form_data = {
"county":'台北市',
"town":'信義區'
}
form_data = urllib.urlencode(form_data)
response = urllib2.urlopen(request,data=form_data)
html=response.read()
print html
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 175.111.41.15
※ 文章網址: https://www.ptt.cc/bbs/Python/M.1481780087.A.051.html
推 orafrank: 對阿 到底少了什麼 ? cookie? 12/15 15:03
→ sky800507: 抓下來是json格式唷 12/15 21:54
→ coeric: 感謝各位大大.............少了一行"Content-Type" 12/15 22:37
→ coeric: 之前在爬全家店舖時,也發生過類似的狀況.. 看得到 吃不到 12/15 22:54
→ coeric: 少一行Referer......... 12/15 22:54
→ coeric: 那是否每次乾脆都把Request Headers的訊息都附上去? 12/15 22:55
推 shadowjohn: 有的網站就是會龜毛的檢查某一頁header 12/16 15:51
→ shadowjohn: 至少能擋掉一堆不會爬的 12/16 15:51
推 shadowjohn: 之前就有網站檢查 HTTP_ACCEPT_LANGUAGE 12/16 15:53
→ shadowjohn: 你沒附抓到三次就ban整天... 12/16 15:53
→ shadowjohn: 盡可能完整的偽造成瀏覽器的格式 12/16 15:54
→ shadowjohn: 直接cut curl的內容來改也行 12/16 15:54
→ coeric: 所以 我就是那個被擋在外面的............XDDDD 12/16 22:23