[問題] multi thread 爬取網頁資料

作者man27382210 (鹽です)

看板Python

標題[問題] multi thread 爬取網頁資料

時間Tue Nov 5 20:56:52 2013

大概爬了一下文好像沒人問過這個問題簡單的說就是目前是用urllib2 跟 BeautifulSioup 來爬dom tree 但是我需要的可能是同時一次爬超過1000個網站而每一個網站可能還需要取出其中的1000個連結再繼續爬... 這樣時間複雜度就是 n 的 n 次方 ................ 我想了幾個方向第一個是 multi thread，另外一個是好像 twisted 似乎可以再來就是hadoop + python 當然是可以用我的模型是可以用常態分佈取得一個平衡，不見得真的會取到1000 * 1000 個但是即使是 500 * 500 仍然是一個很可怕的數字＠＠不知道大家有沒有好的建議該怎麼做＠＠？感謝！ -- 從你的 iPhone 發出嗄？你沒有iPhone ? -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 114.34.79.27

→ NewSpec:n^n... 你要不要先把問題定義好再去抓? 11/05 22:16

推 timTan:你需要的是 scrapy 11/05 23:29

→ lulala453:Scrapy ++ 11/08 23:23