[閒聊] 想跟 Web Scraping 高手請益自動化技術~

作者adwx1973 (adwx1973)

看板Python

標題[閒聊] 想跟 Web Scraping 高手請益自動化技術~

時間Fri Sep 21 11:31:35 2018

As title, 之前網路上看了些 Python 爬蟲基本教學，正試著從證交所爬蟲建立財報/股價資料庫。但沒多久就發現幾個問題： 1. 每天爬取公司股價，經常性斷線，加上 Header; time.sleep(); 之類的都用上了，想請益更有效率，穩定自動斷點續傳的技術。 2. 財報 PDF 想要自動化下載，因為隱藏網址似乎是 jsoncallback 產生的，並且網址當中一部分是隨機數 or 現在時刻(時分秒)，這方面沒辦法突破。也有試過 selenium + firefox webdriver，不過也是卡在多個頁面切換的操作無法 Loop。想請益版上這方面的高手，這些部分怎麼用 code 實現，如果人在高雄有時間也可以約出來，我可以請你吃飯~ 非常感謝!! -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 36.236.32.144 ※ 文章網址: https://www.ptt.cc/bbs/Python/M.1537500697.A.DE8.html

推 f496328mm: crontab 排程自動化 09/21 12:58

推 supisces: 反爬蟲？ 09/21 15:54

推 areyo: 推同在高雄 09/23 23:28

推 totte: 1證交所股價下載還蠻穩的丫我幾乎沒出過問題你是下載json 09/25 04:56

→ totte: ? 09/25 04:56

→ totte: 2財報為何要下載pdf? 印象中有csv之類的原始資料可下也史 09/25 04:57

→ totte: 容易分析 09/25 04:57

→ adwx1973: http://www.twse.com.tw/zh/page/trading/exchange/STOC 09/25 10:59

→ adwx1973: 是在個股日成交資訊那邊抓，持續一段時間後會斷 09/25 11:00

→ adwx1973: 公開資訊觀測站有IFRS的財報XBRL，可是有些會計科目的細 09/25 11:03

→ adwx1973: 項不在那裏面，必須要去原始的PDF檔裡面找 09/25 11:04