看板 CSSE 關於我們 聯絡資訊
各位好,想請教關於文章相似度計算的問題. 目前知道計算文章相似度有一些演算法,例如下列這四種: 1.LSI 2.LDA 3.Doc2vec 4.TF-IDF 因為想運用這四種演算法做文章相似度的計算,但由於之前無相關背景, 也請教過一些資訊系的教授,但目前問到的教授,皆未從事相關領域的研究. 能否請教各位有經驗的大大是否能提供一些關於這些演算法的說明介紹 或是哪些網站可以找尋到相關的資訊,以便了解如何實作出這幾個系統,謝謝. 或是有哪些特定的軟體,可以模擬這幾種算法,並能夠求解,謝謝. 所要解決的題目網站:http://kdd.ics.uci.edu/databases/reuters21578/reuters21578.html -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 118.160.173.125 ※ 文章網址: https://www.ptt.cc/bbs/CSSE/M.1514346096.A.4BC.html
castman: google "gensim tutorial", 有LSI計算相似度的範例, lda, 12/27 13:07
castman: word2vec 基本上也是換個 method call 12/27 13:07
castman: gensim 是 python 的 library 12/27 13:08
willieyeh1: 謝謝分享! 12/29 00:55
willieyeh1: 我找了一下,是否是Python有提供這幾種算法的program呢 12/29 23:30