看板 Prob_Solve 關於我們 聯絡資訊
※ [本文轉錄自 Programming 看板] 作者: slalala (ptt不是丁丁知識+) 看板: Programming 標題: [問題] 關於TAGS 時間: Tue Dec 11 02:18:39 2007 我寫程式的能力只是幼稚園小班 頂多應付論文的小程式 我想請問一下 最近看到一些留言版程式都開始有"TAGS"的功能 會顯示高詞頻(TF)的關鍵字 請問這是對全文做N- GRAM嗎?? 還是另有小技巧? 我很喜歡思考程式的邏輯~_~ 我的想法是- 將全文用2~N的長度, 將鄰近的字擷取成一個詞, 然後到最後會出現很多長度2~N不等的關鍵字, 最後做TF的計算,最後顯示前面幾組關鍵字。 (附註: 純n gram我已經寫過了 只是想知道有沒有更佳的作法 ) -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 61.59.146.157 ※ 編輯: slalala 來自: 61.59.146.157 (12/11 02:23)
ledia:tf-idf ? 12/11 02:32
ledia:另外你還要定義無效字吧, 不然你會看到一堆 "然後" "因為" 12/11 02:33
slalala:所以的確是用N-GRAM? 無效詞彙可以靠字典檔學習而來! 12/11 23:21
slalala:IDF可用來尋找"所謂的無效字" 12/11 23:22
ledia:不過我猜想 tags 也有可能是 author 自己下的? 12/13 15:45
ledia:因為 tf-idf 感覺他很不準 12/13 15:45
slalala:要看全文的內容吧 另外單篇文章 不會有IDF 12/14 00:04
ledia:是呀 是要用全部來看呀 @@ 12/14 11:03