作者SONGya168 (威威)
看板Python
標題[問題] 爬買賣日報表CAPTCHA問題
時間Wed Feb 28 09:40:01 2018
Hi 各位好,
最近開始學習python進行爬蟲,參考網路上的大數軟體教學,
先進行半自動化的爬取, 取得驗證碼圖片後再手動輸入驗證碼,
以上部份都沒有問題, 但由於在進行證交所買賣日報表的爬取時,
因為買賣日報表是aspx, 所以一開始遇到__VIEWSTATE及__EVENTVALIDATION
變數會變動問題,所幸在本版有爬文知道如何解決此問題 (先利用GET爬取
此兩變數,再利用POST送出實際的請求)
但最後送出POST後會發現爬取回來的網頁內容會是 "驗證碼錯誤"
買賣日報表有兩個FRAME: Menu及Content,
Menu會出現驗證碼錯誤;Content則為空白
想請問各位大神, 是否可提供小弟一個方向呢?
ps. 在正式送出POST前,只會選一個證券代號, 再選擇後, 我查看Chrome 開發者工具
應該並沒有額外的POST請求,所以我所爬取的__VIEWSTATE應該是沒問題的
請參考我寫的code (jupyter notebook):
https://github.com/weishiny/ProgramNote/blob/master/DailyReportCAPTCHA.ipynb
--
那天在捷運站被機器吃錢,
更機車的是站務跟我落英文說:
吐幣or not 吐幣,That is the question...
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.45.146.45
※ 文章網址: https://www.ptt.cc/bbs/Python/M.1519782022.A.172.html
→ s860134: 你買賣日報進去的時候不用填驗證碼嗎? 02/28 18:50
→ SONGya168: 需要,我是先取得驗證碼圖片後,formdata手動填,有利 02/28 21:58
→ SONGya168: 用session 02/28 21:58
→ SONGya168: 目前還沒有做到自動的 02/28 21:59
→ SONGya168: 手動填完驗證碼後送post出去 02/28 22:01
推 ok963963ok: 若有需要識別驗證碼,可站內 03/01 10:19
→ SONGya168: 目前我是卡在送post出去驗證碼不過,驗證碼為手填 03/01 18:11