[問題] 使用selenium爬蟲被偵測為機器人

作者xyz6206a (xyz6206a)

看板Python

標題[問題] 使用selenium爬蟲被偵測為機器人

時間Thu Jun 30 11:58:45 2016

各位前輩大家好! 我日前使用selenium寫爬蟲時遇到網頁偵測為機器人而跳出需要寫認證碼阻擋，而我自己使用 time.sleep()去延遲下載時間好像也沒法阻止機器人偵測請問這個原因是? 請問一下有其他解決方法嗎? 下圖為我遇到的狀況 http://imgur.com/CyfWI5k -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 140.112.25.106 ※ 文章網址: https://www.ptt.cc/bbs/Python/M.1467259128.A.3AA.html

→ Neisseria: 改 user agent 看看？ 06/30 12:07

→ Neisseria: 我笨了，不好意思 = =... 06/30 12:08

→ yf9000555: 如果那個網站當初設計，是採用同Ip請求次數來阻擋的話 06/30 12:38

→ yf9000555: ，剛好你電腦為浮動IP的話，用系統命令斷線重連就可以 06/30 12:38

→ yf9000555: 避開了 06/30 12:38

→ xyz6206a: 這個網站要求一定要用學校IP，所以不知道是否可以用斷線 06/30 12:44

→ xyz6206a: 方式 06/30 12:45

→ cybelia: 原po要爬的站跟你們學校的合約，確定是允許「使用軟體 06/30 13:03

→ cybelia: 大量下載」的嗎？ 06/30 13:03

→ IAMPF: 你也可以去找大量的proxy或是用tor來避開這個問題 06/30 13:17

→ xyz6206a: 其實我也不確定是否允許大量下載這是老師的計畫 06/30 15:41

→ tj386: 換個作業系統看看少用win 06/30 18:43

→ ripple0129: 看有沒有猜captcha次數限制，沒的話寫OCR來破解，這 06/30 22:21

→ ripple0129: 個captcha看起來不難解 06/30 22:21

→ xyz6206a: r大是指要用辨識程式去辨別嗎？ 07/04 19:20