看板 Python 關於我們 聯絡資訊
※ 引述《plom (plom)》之銘言: : ※ 引述《StubbornLin (Victor)》之銘言: : : 嗯~ 經過剛才討論一下 : : 還有我的實驗 : : 發現問題出在Google疑似會擋urllib的User-Agent header : : 以上 : 那請問有人知道如何改寫嗎?只有 python 不能抓, 實在太不公平了 >< 剛又試了一下 import httplib httplib.HTTPConnection.debuglevel = 1 import urllib2 opener = urllib2.build_opener() opener.addheaders = [('User-agent', 'Mozilla/5.0')] opener.open('http://www.google.com.tw/search?q=time&start=20&complete=1&hl=zh-TW&sa=N&btnG=%E6%90%9C%E5%B0%8B').read() send: 'GET /search?q=time&start=20&complete=1&hl=zh-TW&sa=N&btnG=%E6%90%9C%E5%B0 send: 'Host: www.google.com.tw\r\n' send: 'User-agent: Mozilla/5.0\r\n' send: '\r\n' reply: 'HTTP/1.0 200 OK\r\n' 接下來要下什麼指令才能抓網頁呢? -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 123.192.149.53