Re: [問題] 問個搜尋引擎機器人的問題還有HTTP 304 …

作者jsu (Je me souviens)

看板Web_Design

標題Re: [問題] 問個搜尋引擎機器人的問題還有HTTP 304 …

時間Fri Sep 5 04:05:20 2008

※ 引述《globalhawk (Cory)》之銘言： : 我自己架的網頁server有用robots.txt在攔搜尋引擎的機器人 : 但是最近檢查紀錄時發現某家搜尋引擎的機器人真的非常糟糕 : 就是大陸的 Sogou 根本完全無視robots.txt嘛 : 早在第一次領教到大陸沒禮貌機器人的威力後 : 就用robots.txt並且也用來源IP封鎖的方式你這個問題其實不是只有對岸不禮貌我家的伺服器每分鐘都被這種機器人打得亂七八糟大約每分鐘都有超過兩千個 requests 是這種不合法的來源多半是美國當地的，也有新加坡的，跟少數大陸的更扯的是，我們追蹤回去，其中有一個 ip block 是政府的對於這種不尊重 robots.txt 的機器人我們的做法是把 ip 記錄下來，然後 reverse proxy servers 會把 list 取回接著將那些 ip 餵給 iptables 擋一擋然後我們公司有臺 ghost server ，也會取得 ip list 最後利用常見的系統漏洞，再用程式反擊回去整個流程全自動，還挺方便的不過要注意的是， robots / web-crawlers 會 cache robots.txt 所以如果你的 robots.txt 太常更新，這個方法要調整一下，多加幾個驗證條件 : 更莫名奇妙的是他們家的機器人每次讀robots.txt伺服器都是回應304 : (別家是一直都 200) : 到底是在玩什麼把戲啊 304 (not modified)正常來說多半是用在圖片資料上吧? : 而且在用過幾次304後應該也會正常下載一次資料(200)才對? : 所以想問問看有沒有人有成功用robots.txt把Sogou擋掉過? : 另外就是在user端用何種方法要求時server端會給304 ? : p.s. 我用的是Apache 2.0 不知道也沒去注意過 -- 乘長風，破巨浪　我海軍勇向前航 -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 216.254.61.170