Re: 請問有關Hash演算法

作者b6s (http://b6s.blogspot.com)

看板Programming

標題Re: 請問有關Hash演算法

時間Fri Aug 11 21:54:11 2006

※ 引述《Killercat (殺人貓™)》之銘言： : ※ 引述《iroy.bbs@bbs.sa.ncyu.edu.tw (丁香魚)》之銘言： : : 請問各位專家 : : 目前常見的hash方法有 md5 checksum crc ...等等 : : 但是這幾種方法只要檔案有稍許的不同...所算出來的hash value : : 就會天差地遠.... : : 想請問的就是有哪個hash方法是 : : 假設影兩個檔案A和B 如果A 和B 的差異只有一點點(可能幾個bit不同) : : 然後有哪個hash方法所算出的hash value也是只有差異一些些!! : 那個不叫hash, 那叫做特徵碼 : 通常使用於病毒的變種防護上. : 這東西很多防毒軟體引擎都或多或少會設計一些這類型的特徵碼 : 不過這基本上跟hash毫無關係, 祇是把一些特徵index起來而已 : 因為病毒體積都不大(總不太可能有500mb的病毒吧? 這應該叫做惡意程式了) : 所以"特徵"也比較少, 特徵碼也不至於長到不能用的地步 : 如果你是拿來做一般檔案編碼的話, 那這個index所需要紀錄的資料 : 遠遠不是hash能比的大小 =) 是的，那確實不是 hash 的用途，因為 hash 的基礎是 pseudo random number。你需要的是到 Google Scholar 找幾個關鍵字（愈底下的愈粗略）： similarity (string or text, PCMan 提到的 edit distance 就是這類) fingerprint (data mining) text clustering (not computer cluster) text classification information extraction information retrieval -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 59.105.131.104