[問題] - 看板 Python - 批踢踢實業坊

作者alen84204 (Dana)

看板Python

標題[問題]

時間Fri Mar 8 22:55:27 2019

最近在練習驗證碼辨識想說試試看自己測試其他網站能不能成功結果光是下載驗證碼圖片就困擾我一陣子啦同樣的code 在gztown就抓得到 https://pt.gztown.net/login.php 但是在學校網站卻抓不到 https://www.ais.tku.edu.tw/EleCos/login.aspx 想請教該如何解決? code如下(從#1QFyrfBX (Python)改寫的): import shutil import requests import time from bs4 import BeautifulSoup SAVEPATH = "./data/manual_label/" url = "https://pt.gztown.net/login.php" #url = 'http://railway1.hinet.net/ImageOut.jsp' for i in range(1, 3000): #先抓出驗證碼圖片的網址 img_url r = requests.get(url, stream = True) soup = BeautifulSoup(r.text, 'html.parser') img = soup.find_all('img') src = img[1].get('src') img_url = "https://pt.gztown.net/" + src response = requests.get(img_url, stream=True) with open(SAVEPATH + str(i) + '.jpg', 'wb') as out_file: shutil.copyfileobj(response.raw, out_file) del response time.sleep(0.1) 謝謝各位前輩 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.32.56.155 ※ 文章網址: https://www.ptt.cc/bbs/Python/M.1552056932.A.27A.html

推 rexyeah: 我想是因為台鐵只有一個<IMG> 所以是img[0].get(...) 03/08 23:15

推 f496328mm: 用selenium去截圖、切圖 03/09 01:13

→ alen84204: selenium我是直接模擬右鍵下載但想說requests速度較快 03/09 08:01

→ alen84204: 也可以自動下載後的檔案名稱 03/09 08:02

→ vi000246: 用debug去跑看有沒有抓到東西 03/09 11:48

推 nini200: 顯示 500 錯誤往這方向去查 03/09 16:48