精華區beta Oversea_Job 關於我們 聯絡資訊
※ 引述《LINC.bbs@ptt3.cc (Go cubs!)》之銘言: : 第二道題: : How to fast check if a URL is visited by web crawler? : 我看到的解法: hash table (有這麼簡單嗎@@) : 直覺上來說好像不對勁 : 一個URL假設是20 char, 算20 bytes : 假設Internet有5 billion pages -> 5 * 20 billion bytes = 100 billion bytes : = 100 GB : 100GB(至少) hastable? 有沒搞錯? : 我查了一下wikipedia 上面也是說Google有個URL server專門在作這個URL revisit : check : 請問真的是用Hashing嗎 還是Distributed Hashing?? 我會設計的方法: URL的有效字元 A-Z a-z 加上一些符號,大概總共算是60個symbol, n0*60^0+n1*60^1+n2*60^2+n3*60^3+n4*60^4+...+ni*60^i 不過這個數字大的一塌糊塗,所以不是什麼好方法; 如果不想要collision的話,資料量可能就是那麼大。 至於partition的話,用開頭字母就可以作uniform dist.了。 -- Je t'aime,o capitale infame. Tu m'as donne ta boue et j'en ai fait de l'or. Charles Baudelaire 1821-67 -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 216.145.49.21 ※ 編輯: Baudelaire 來自: 216.145.49.21 (08/24 08:03)