看板 Python 關於我們 聯絡資訊
各位前輩大家好! 我日前使用selenium寫爬蟲時 遇到網頁偵測為機器人而跳出 需要寫認證碼阻擋,而我自己使用 time.sleep()去延遲下載時間 好像也沒法阻止機器人偵測 請問這個原因是? 請問一下有其他解決方法嗎? 下圖為我遇到的狀況 http://imgur.com/CyfWI5k -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 140.112.25.106 ※ 文章網址: https://www.ptt.cc/bbs/Python/M.1467259128.A.3AA.html
Neisseria: 改 user agent 看看? 06/30 12:07
Neisseria: 我笨了,不好意思 = =... 06/30 12:08
yf9000555: 如果那個網站當初設計,是採用同Ip請求次數來阻擋的話 06/30 12:38
yf9000555: ,剛好你電腦為浮動IP的話,用系統命令斷線重連就可以 06/30 12:38
yf9000555: 避開了 06/30 12:38
xyz6206a: 這個網站要求一定要用學校IP,所以不知道是否可以用斷線 06/30 12:44
xyz6206a: 方式 06/30 12:45
cybelia: 原po要爬的站跟你們學校的合約,確定是允許「使用軟體 06/30 13:03
cybelia: 大量下載」的嗎? 06/30 13:03
IAMPF: 你也可以去找大量的proxy或是用tor來避開這個問題 06/30 13:17
xyz6206a: 其實我也不確定是否允許大量下載這是老師的計畫 06/30 15:41
tj386: 換個作業系統看看 少用win 06/30 18:43
ripple0129: 看有沒有猜captcha次數限制,沒的話寫OCR來破解,這 06/30 22:21
ripple0129: 個captcha看起來不難解 06/30 22:21
xyz6206a: r大是指要用辨識程式去辨別嗎? 07/04 19:20