[閒聊] 爬蟲背景執行就失敗

作者B01201026 (星空螢火蟲)

看板Python

標題[閒聊] 爬蟲背景執行就失敗

時間Sat Mar 20 22:39:54 2021

前情提要：因為工作需要，要下載數千份文檔，老闆指示土法煉鋼一個一個按，於是我發憤開始學python… 手動下載的步驟是： 1.key年份跟代號按搜尋 2.跳出另一 tab 為搜尋結果 3.點結果中的文件連結，跳出另一 tab 有下載鏈 4.點下載鏈接下載於是乎，用requests 試寫一段下載單一文件，成功。殊不知而，換了另一個文件就失敗。原來是因為網頁沒開著。於是找到 selenium ，用各種方法都定位不到搜尋結果畫面中的連結位置。最後的方法是用網址+selenium開搜尋結果畫面，就找到連結位置了，然後再把連結丟到requests終於可以順利下載，在這同時還用層層try except包裹住以及一堆sleep才順利抓到檔案。昨晚臨走前我假會加了一句 opts.add_argument('--headless') 然後今天去運動路過辦公室就想說進去喵一眼結果…抓到的檔案都是壞的，原本大小不一的檔案通通都11k，還損毀 ◢▆▅▄▃ 崩╰(〒皿〒)╯潰 ▃▄▅▆◣ 又要重跑了註解掉昨晚臨走前加的那一行就又好了… 我週末下完檔案的夢想越來越不可能了 ----- Sent from JPTT on my Asus ASUS_X01BDA. -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 122.99.44.137 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Python/M.1616251198.A.C0D.html

推 NoneNaMey: 是抓甚麼方便私我看看嗎XD Selenium抓很慢 03/29 19:27

→ NoneNaMey: 就算是用headless也會吃很多資源 03/29 19:27