看板 DataScience 關於我們 聯絡資訊
各位好,假設我有兩個不同欄目a, b a共有十列關鍵字 b列也有十列,或是九列關鍵字不等。 請問,要怎麼計算a,b兩欄的相似度?有沒有最一般的做法可以建議? 每一欄關鍵字間的順序不重要,不需要被考慮。 萬分感謝! -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 111.65.47.19 (新加坡) ※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1725691806.A.F3F.html
chang1248w: apriori? 09/07 18:53
jigfopsda: 可以看看這個相似度最後的用途是什麼,再來決定要用什 09/07 21:56
jigfopsda: 麼方法算,知道用途也可以有關鍵字拿來 google 09/07 21:56
ptta: Levenshtein Distance 用了一陣子,差強人意..但也找不到更 09/07 22:04
ptta: 好的替代方案 09/07 22:04
melancholy07: Jaccard similarity? 09/09 16:06
lovepork: 非常感謝各位的資訊 我目前先用一個套件 two-lists simi 09/11 14:39
lovepork: liarity 有需要我再試看看各位建議的方法 09/11 14:40