看板 DataScience 關於我們 聯絡資訊
大家好,我們想要把ISBN上2014到2024的書籍資料全部用爬蟲爬出來,可是使用selenium 寫出爬蟲程式(程式如下附連結,寫得有點冗不好意思)後,發現爬每一筆資料都要花大約 8秒鐘,這樣如果要爬十年資料會爬不完(大約要花1400小時)。 所以想請教有甚麼爬蟲爬 得比較快的寫法嗎? 感謝! https://drive.google.com/drive/folders/1pMXmZaob-qAh4VTXlcLReCv6W072NHPC?usp=s haring 目前有使用https://scrapeops.io/selenium-web-scraping-playbook/python-selenium disable-image-loading/,讓它不要讀取圖片只讀取文字,有快了一些些但還是6秒左右 ,用requests寫好像也會比較快?但還是想詢問有沒有更快速的Python爬法,因為我們的 時間不夠多,謝謝板上的各位! -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.136.241.164 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1704477043.A.325.html ※ 編輯: jianingtw (114.136.241.164 臺灣), 01/06/2024 01:52:02
ddavid: 先對每一個步驟印出 log 看時間瓶頸是什麼步驟或動作啊 01/06 02:07
ddavid: 確定了瓶頸後,如果那是可以改善的就改,如果那不能改善, 01/06 02:08
ddavid: 那就開很多台電腦一起爬 01/06 02:08
Hsins: 時間不夠多,拿預算來湊;看了一下程式碼,覺得樓上說的調 01/08 15:57
Hsins: 整對你們來說會有點吃力;瓶頸可以直接說是 selenium 然後 01/08 15:58
Hsins: 沒有同時間送多個請求啦,看是要自己調整,還是花錢或是找 01/08 15:59
Hsins: 朋友幫忙調整,都不行的話就開多台電腦一起爬吧,開個 20台 01/08 16:00
Hsins: 大概就三天 01/08 16:00
CP64: requests+bs4 應該會快很多 然後不用一頁頁點 觀察一下網址 01/13 00:42
CP64: 不過要記得用 session 它參數有部分是用 session 在帶的 01/13 00:43