看板 Python 關於我們 聯絡資訊
最近在練習 驗證碼辨識 想說試試看自己測試其他網站能不能成功 結果光是下載驗證碼圖片就困擾我一陣子啦 同樣的code 在gztown就抓得到 https://pt.gztown.net/login.php 但是在學校網站卻抓不到 https://www.ais.tku.edu.tw/EleCos/login.aspx 想請教該如何解決? code如下(從#1QFyrfBX (Python)改寫的): import shutil import requests import time from bs4 import BeautifulSoup SAVEPATH = "./data/manual_label/" url = "https://pt.gztown.net/login.php" #url = 'http://railway1.hinet.net/ImageOut.jsp' for i in range(1, 3000): #先抓出驗證碼圖片的網址 img_url r = requests.get(url, stream = True) soup = BeautifulSoup(r.text, 'html.parser') img = soup.find_all('img') src = img[1].get('src') img_url = "https://pt.gztown.net/" + src response = requests.get(img_url, stream=True) with open(SAVEPATH + str(i) + '.jpg', 'wb') as out_file: shutil.copyfileobj(response.raw, out_file) del response time.sleep(0.1) 謝謝各位前輩 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.32.56.155 ※ 文章網址: https://www.ptt.cc/bbs/Python/M.1552056932.A.27A.html
rexyeah: 我想是因為台鐵只有一個<IMG> 所以是img[0].get(...) 03/08 23:15
f496328mm: 用selenium去截圖、切圖 03/09 01:13
alen84204: selenium我是直接模擬右鍵下載 但想說requests速度較快 03/09 08:01
alen84204: 也可以自動下載後的檔案名稱 03/09 08:02
vi000246: 用debug去跑 看有沒有抓到東西 03/09 11:48
nini200: 顯示 500 錯誤 往這方向去查 03/09 16:48