作者reader (讀者)
看板CSSE
標題Re: [問題] 爬全球的網站大概要花多久?
時間Sun Aug 27 12:20:48 2006
※ 引述《StubbornLin (Victor)》之銘言:
: 我最近在寫網頁爬蟲,不過目前只針對特定資料
: 我一直有一個疑問,如果像Google那樣爬全球的網頁
: 大概要多少臺什麼等級的機器,和網路環境
: 在多久的時間內可以爬完,爬行過程中更新的就不去管了
你可以先計算網路頻寬,目前中小型 ISP 的機房,對外多在 OC-12 (622Mb)
以下,內部則是用 Gigabit Ethernet 為主,所以一台機器能使用 50MB/s 的
頻寬,大概就是一個限度了。
也因此,你可以想辦法估計全球網頁的總資料量,再考慮網路的極限速率,再
看看軟硬體效能是否能達到這個極限。
此外,第一次爬資料和第二次爬資料不一樣,第二次和第三次又不一樣,需要
計算單位時間更新量才行。
如果 Yahoo 的估計量是正確的, 20G 的網頁,光是檢查有沒有更新,大約就要
花上 10TB 左右的流量,更新的總資料量則和時間有關。
若要一周檢查一次,更新率為 1%, 平均網頁大小為 50KB, 則總共的資料量為
(20G * 0.01 * 50KB + 10TB) / 50MB = 400K sec, 一周有 600K sec 以上。
所以理論上,只要一台好機器就可能在一周內爬完全球網頁。只是若要收斂到
這個地步,需要較長的時間。我就不去計算了。
當然,台灣是承受不了這個國際流量的,主機最好是放在美國 ISP 機房裡。
也最好不要只用一台機器。
以現在美國 1TB 流量 100 美元計算,一個月花上 10K 美金可能跑不掉。
當然若每月 10K 美金就可能經營一家全球性的大型搜尋引擎,算起來其實是
極端便宜的。
--
我一直沒有很把 Google 的資本力量放在眼裡,就是因為運算力和頻寬實在是
很便宜的東西,在網路世界中,技術的力量還是遠大於資本的力量。而技術的
力量也不取決於人力資源,主要仍然在於智力的品質上,這也不是博士學位就
能保證的。
台灣人不是被嚇大的,別被 Google 神話論唬住了。當初他們也不過就是兩個
剛畢業的學生,我們反而應該認為「有為者亦若是」才對。
--
※ 編輯: reader 來自: 61.222.173.30 (08/27 12:24)
推 PRAM:記得那兩個google創辦人並沒有畢業吧 08/27 16:02
推 come:google主機一買就是千百台 他們砸在主機上面的錢可不少 08/27 22:09
推 ikari512:推最後一段 氣度! 08/28 03:33
推 ikari512:另外 我想不少人知道 google的server是在50萬台以上 08/28 03:36
→ ikari512:之前google建資料中心 就被拿出來和微軟比 08/28 03:37