※ 引述《plom (plom)》之銘言:
: ※ 引述《StubbornLin (Victor)》之銘言:
: : 嗯~ 經過剛才討論一下
: : 還有我的實驗
: : 發現問題出在Google疑似會擋urllib的User-Agent header
: : 以上
: 那請問有人知道如何改寫嗎?只有 python 不能抓, 實在太不公平了 ><
剛又試了一下
import httplib
httplib.HTTPConnection.debuglevel = 1
import urllib2
opener = urllib2.build_opener()
opener.addheaders = [('User-agent', 'Mozilla/5.0')]
opener.open('http://www.google.com.tw/search?q=time&start=20&complete=1&hl=zh-TW&sa=N&btnG=%E6%90%9C%E5%B0%8B').read()
send: 'GET
/search?q=time&start=20&complete=1&hl=zh-TW&sa=N&btnG=%E6%90%9C%E5%B0
send: 'Host: www.google.com.tw\r\n'
send: 'User-agent: Mozilla/5.0\r\n'
send: '\r\n'
reply: 'HTTP/1.0 200 OK\r\n'
接下來要下什麼指令才能抓網頁呢?
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 123.192.149.53