看板 CSSE 關於我們 聯絡資訊
※ 引述《StubbornLin (Victor)》之銘言: : 我最近在寫網頁爬蟲,不過目前只針對特定資料 : 我一直有一個疑問,如果像Google那樣爬全球的網頁 : 大概要多少臺什麼等級的機器,和網路環境 : 在多久的時間內可以爬完,爬行過程中更新的就不去管了 你可以先計算網路頻寬,目前中小型 ISP 的機房,對外多在 OC-12 (622Mb) 以下,內部則是用 Gigabit Ethernet 為主,所以一台機器能使用 50MB/s 的 頻寬,大概就是一個限度了。 也因此,你可以想辦法估計全球網頁的總資料量,再考慮網路的極限速率,再 看看軟硬體效能是否能達到這個極限。 此外,第一次爬資料和第二次爬資料不一樣,第二次和第三次又不一樣,需要 計算單位時間更新量才行。 如果 Yahoo 的估計量是正確的, 20G 的網頁,光是檢查有沒有更新,大約就要 花上 10TB 左右的流量,更新的總資料量則和時間有關。 若要一周檢查一次,更新率為 1%, 平均網頁大小為 50KB, 則總共的資料量為 (20G * 0.01 * 50KB + 10TB) / 50MB = 400K sec, 一周有 600K sec 以上。 所以理論上,只要一台好機器就可能在一周內爬完全球網頁。只是若要收斂到 這個地步,需要較長的時間。我就不去計算了。 當然,台灣是承受不了這個國際流量的,主機最好是放在美國 ISP 機房裡。 也最好不要只用一台機器。 以現在美國 1TB 流量 100 美元計算,一個月花上 10K 美金可能跑不掉。 當然若每月 10K 美金就可能經營一家全球性的大型搜尋引擎,算起來其實是 極端便宜的。 -- 我一直沒有很把 Google 的資本力量放在眼裡,就是因為運算力和頻寬實在是 很便宜的東西,在網路世界中,技術的力量還是遠大於資本的力量。而技術的 力量也不取決於人力資源,主要仍然在於智力的品質上,這也不是博士學位就 能保證的。 台灣人不是被嚇大的,別被 Google 神話論唬住了。當初他們也不過就是兩個 剛畢業的學生,我們反而應該認為「有為者亦若是」才對。 -- ※ 編輯: reader 來自: 61.222.173.30 (08/27 12:24)
PRAM:記得那兩個google創辦人並沒有畢業吧 08/27 16:02
come:google主機一買就是千百台 他們砸在主機上面的錢可不少 08/27 22:09
ikari512:推最後一段 氣度! 08/28 03:33
ikari512:另外 我想不少人知道 google的server是在50萬台以上 08/28 03:36
ikari512:之前google建資料中心 就被拿出來和微軟比 08/28 03:37
ikari512:google的電費也很驚人 http://0rz.net/d61Kz 08/28 03:38