[問題] 加速Python爬蟲速度

作者jianingtw (jie)

看板DataScience

標題[問題] 加速Python爬蟲速度

時間Sat Jan 6 01:50:41 2024

大家好，我們想要把ISBN上2014到2024的書籍資料全部用爬蟲爬出來，可是使用selenium 寫出爬蟲程式(程式如下附連結，寫得有點冗不好意思)後，發現爬每一筆資料都要花大約 8秒鐘，這樣如果要爬十年資料會爬不完(大約要花1400小時)。所以想請教有甚麼爬蟲爬得比較快的寫法嗎? 感謝！ https://drive.google.com/drive/folders/1pMXmZaob-qAh4VTXlcLReCv6W072NHPC?usp=s haring 目前有使用https://scrapeops.io/selenium-web-scraping-playbook/python-selenium disable-image-loading/，讓它不要讀取圖片只讀取文字，有快了一些些但還是6秒左右，用requests寫好像也會比較快？但還是想詢問有沒有更快速的Python爬法，因為我們的時間不夠多，謝謝板上的各位！ -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.136.241.164 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1704477043.A.325.html ※ 編輯: jianingtw (114.136.241.164 臺灣), 01/06/2024 01:52:02

→ ddavid: 先對每一個步驟印出 log 看時間瓶頸是什麼步驟或動作啊 01/06 02:07

→ ddavid: 確定了瓶頸後，如果那是可以改善的就改，如果那不能改善， 01/06 02:08

→ ddavid: 那就開很多台電腦一起爬 01/06 02:08

→ Hsins: 時間不夠多，拿預算來湊；看了一下程式碼，覺得樓上說的調 01/08 15:57

→ Hsins: 整對你們來說會有點吃力；瓶頸可以直接說是 selenium 然後 01/08 15:58

→ Hsins: 沒有同時間送多個請求啦，看是要自己調整，還是花錢或是找 01/08 15:59

→ Hsins: 朋友幫忙調整，都不行的話就開多台電腦一起爬吧，開個 20台 01/08 16:00

→ Hsins: 大概就三天 01/08 16:00

→ CP64: requests+bs4 應該會快很多然後不用一頁頁點觀察一下網址 01/13 00:42

→ CP64: 不過要記得用 session 它參數有部分是用 session 在帶的 01/13 00:43