看板 Programming 關於我們 聯絡資訊
※ 引述《Killercat (殺人貓™)》之銘言: : ※ 引述《iroy.bbs@bbs.sa.ncyu.edu.tw (丁香魚)》之銘言: : : 請問各位專家 : : 目前常見的hash方法有 md5 checksum crc ...等等 : : 但是這幾種方法 只要檔案有稍許的不同...所算出來的hash value : : 就會天差地遠.... : : 想請問的就是 有哪個hash方法是 : : 假設影兩個檔案A和B 如果A 和B 的差異只有一點點(可能幾個bit不同) : : 然後有哪個hash方法所算出的hash value也是只有差異一些些!! : 那個不叫hash, 那叫做特徵碼 : 通常使用於病毒的變種防護上. : 這東西很多防毒軟體引擎都或多或少會設計一些這類型的特徵碼 : 不過這基本上跟hash毫無關係, 祇是把一些特徵index起來而已 : 因為病毒體積都不大(總不太可能有500mb的病毒吧? 這應該叫做惡意程式了) : 所以"特徵"也比較少, 特徵碼也不至於長到不能用的地步 : 如果你是拿來做一般檔案編碼的話, 那這個index所需要紀錄的資料 : 遠遠不是hash能比的大小 =) 是的,那確實不是 hash 的用途,因為 hash 的基礎是 pseudo random number。 你需要的是到 Google Scholar 找幾個關鍵字(愈底下的愈粗略): similarity (string or text, PCMan 提到的 edit distance 就是這類) fingerprint (data mining) text clustering (not computer cluster) text classification information extraction information retrieval -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 59.105.131.104