看板 Python 關於我們 聯絡資訊
大概爬了一下文好像沒人問過這個問題 簡單的說就是目前是用urllib2 跟 BeautifulSioup 來爬dom tree 但是我需要的可能是同時一次爬超過1000個網站 而每一個網站 可能還需要取出其中的1000個連結再繼續爬... 這樣時間複雜度就是 n 的 n 次方 ................ 我想了幾個方向 第一個是 multi thread,另外一個是好像 twisted 似乎可以 再來就是hadoop + python 當然是可以用我的模型是可以用常態分佈取得一個平衡,不見得真的會 取到1000 * 1000 個 但是即使是 500 * 500 仍然是一個很可怕的數字@@ 不知道大家有沒有好的建議該怎麼做@@? 感謝! -- 從你的 iPhone 發出 嗄? 你沒有iPhone ? -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 114.34.79.27
NewSpec:n^n... 你要不要先把問題定義好再去抓? 11/05 22:16
timTan:你需要的是 scrapy 11/05 23:29
lulala453:Scrapy ++ 11/08 23:23