Re: [問題] 抓 google 網頁的搜尋回傳結果

作者plom (plom)

看板Python

標題Re: [問題] 抓 google 網頁的搜尋回傳結果

時間Sat Dec 15 22:44:43 2007

※ 引述《plom (plom)》之銘言： : ※ 引述《StubbornLin (Victor)》之銘言： : : 嗯~ 經過剛才討論一下 : : 還有我的實驗 : : 發現問題出在Google疑似會擋urllib的User-Agent header : : 以上 : 那請問有人知道如何改寫嗎？只有 python 不能抓, 實在太不公平了 >< 剛又試了一下 import httplib httplib.HTTPConnection.debuglevel = 1 import urllib2 opener = urllib2.build_opener() opener.addheaders = [('User-agent', 'Mozilla/5.0')] opener.open('http://www.google.com.tw/search?q=time&start=20&complete=1&hl=zh-TW&sa=N&btnG=%E6%90%9C%E5%B0%8B').read() send: 'GET /search?q=time&start=20&complete=1&hl=zh-TW&sa=N&btnG=%E6%90%9C%E5%B0 send: 'Host: www.google.com.tw\r\n' send: 'User-agent: Mozilla/5.0\r\n' send: '\r\n' reply: 'HTTP/1.0 200 OK\r\n' 接下來要下什麼指令才能抓網頁呢? -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 123.192.149.53