看板 Python 關於我們 聯絡資訊
請問一下 再拿到 response 後用 tag 去找資料會失敗 為什麼我執行的時候很容易失敗 https://i.imgur.com/xs0Hu1x.jpg
偶爾會成功 https://i.imgur.com/LF6VOjR.jpg
我 header 放 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.61 Safari/537.36' 請問有人有遇到過這樣的問題嗎? 我後來把 cookie 也全部加進去也沒效 QQ -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 140.125.46.7 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Python/M.1591673115.A.586.html
pmove: 失敗時,回傳的資料是? 06/09 12:22
mychiux413: 找看看有沒有'recaptcha'的id,有的話就是機器人在擋 06/09 12:30
mychiux413: 爬google的所有動作最好是每5秒動一次比較安全 06/09 12:31
mychiux413: 如果recaptcha跳出來,可以休息10分鐘後再來 06/09 12:32
yoz4ni: 回傳的資料如果是找 tag 的話是沒資料的(空的) 06/09 14:55
yoz4ni: 請問是 recaptcha 的話要在哪裡才能看的到呢? 06/09 14:56
alvinlin: 用https://opendata.cwb.gov.tw/index 06/09 15:54
alvinlin: https://i.imgur.com/FlRV1Na.jpg 06/09 15:54
alvinlin: 另Google Custom Search API 也參考 06/09 15:59
alvinlin: 有API用API吧。爬東西很累人的 06/09 15:59
mychiux413: 會有一個element的id叫做'recaptcha', 可以用bs4找 06/09 16:05
alvinlin: 找到recaptcha也沒用。破解不了的 06/09 16:22
OrzOGC: 一個人硬幹是贏不過google那些工程師的 06/09 18:00
yoz4ni: 因為我是在練習,所以想說不去用 API 來抓資料看看 06/10 02:24
yoz4ni: 還是說這樣的練習其實是不需要的OAO 06/10 02:24
yoz4ni: 我晚點去把回傳資料找看看有沒有 id 是 recaptcha 的 06/10 02:26
alvinlin: 也不是這樣說。因為看你已經正確抓到資料了,所以你的程 06/10 03:13
alvinlin: 式沒問題。但你如果是要去對付reCaptcha這我試過沒找到 06/10 03:13
alvinlin: 方法。所以你只能繞道。剛好這個有API那應該試著用其他 06/10 03:13
alvinlin: 方法取得資料,而不是和它硬幹。 06/10 03:13
alvinlin: https://i.imgur.com/PxU7cb6.jpg 06/10 03:20
vi000246: 通常google有api的東西就不要自己爬了 贏不了google工程 06/10 09:07
vi000246: 師的 06/10 09:07
shadowjohn: 爬的內容你連續多抓幾個分頁頻率一高就被檔了 06/10 09:26
femlro: 我有時候手動搜尋快一點都被擋了 何況爬蟲 06/10 16:26
aidansky0989: 只有更新cookies還不夠,IP時間等等都要調 06/10 16:35
salmon12706: 工研院人工智慧課程推薦https://reurl.cc/4RDRaK 06/29 16:15