看板 Python 關於我們 聯絡資訊
Hi 各位好, 最近開始學習python進行爬蟲,參考網路上的大數軟體教學, 先進行半自動化的爬取, 取得驗證碼圖片後再手動輸入驗證碼, 以上部份都沒有問題, 但由於在進行證交所買賣日報表的爬取時, 因為買賣日報表是aspx, 所以一開始遇到__VIEWSTATE及__EVENTVALIDATION 變數會變動問題,所幸在本版有爬文知道如何解決此問題 (先利用GET爬取 此兩變數,再利用POST送出實際的請求) 但最後送出POST後會發現爬取回來的網頁內容會是 "驗證碼錯誤" 買賣日報表有兩個FRAME: Menu及Content, Menu會出現驗證碼錯誤;Content則為空白 想請問各位大神, 是否可提供小弟一個方向呢? ps. 在正式送出POST前,只會選一個證券代號, 再選擇後, 我查看Chrome 開發者工具 應該並沒有額外的POST請求,所以我所爬取的__VIEWSTATE應該是沒問題的 請參考我寫的code (jupyter notebook): https://github.com/weishiny/ProgramNote/blob/master/DailyReportCAPTCHA.ipynb -- 那天在捷運站被機器吃錢, 更機車的是站務跟我落英文說: 吐幣or not 吐幣,That is the question... -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.45.146.45 ※ 文章網址: https://www.ptt.cc/bbs/Python/M.1519782022.A.172.html
s860134: 你買賣日報進去的時候不用填驗證碼嗎? 02/28 18:50
SONGya168: 需要,我是先取得驗證碼圖片後,formdata手動填,有利 02/28 21:58
SONGya168: 用session 02/28 21:58
SONGya168: 目前還沒有做到自動的 02/28 21:59
SONGya168: 手動填完驗證碼後送post出去 02/28 22:01
ok963963ok: 若有需要識別驗證碼,可站內 03/01 10:19
SONGya168: 目前我是卡在送post出去驗證碼不過,驗證碼為手填 03/01 18:11
a830307119: https://tinyurl.com/yadsk3lo 03/03 06:57
ar54971: https://goo.gl/2WCUGr 03/06 03:38
galeondx: https://goo.gl/cybm9m 03/06 04:16
galeondx: https://goo.gl/MKaCK6 03/06 04:29