[問題] 提升關鍵字提取的準確度

作者moodoa3583 (金牌台灣啤酒)

看板DataScience

標題[問題] 提升關鍵字提取的準確度

時間Sun Feb 2 21:59:20 2020

嗨大家晚安我想問一個我最近碰到的問題: 假設我想為PTT上每一篇熱門文章標上關鍵字，若以非監督式學習直接套用TFIDF 分類，準確率我們都知道和人類想比是望塵莫及的。所以假設我們已經手動標註了5000篇文章。並產生一萬個關鍵字 (其中有7000個關鍵字不重複)，此時我們可以把這七千個關鍵字加入分詞字典，讓文章可以更如我們所願地被分詞，同時在這些關鍵字上帶上加權，只要分詞出來的詞在這些關鍵字裡面，就給 x*(關鍵字出現次數) 舉例來說，這一萬個關鍵字裡面，"口罩"出現了24次，那就給24x當權重如此一來，關鍵字的準確度的確能夠有所提升，但出現了以下的缺點: 1. 若非在這手動分出的7000個關鍵字裡面，則幾乎不可能被當關鍵字被提出，原因可能為加權太重，但如果加權太輕，則會有許多無關緊要的字詞被提取出 2. 機器無法學習新字，雖然我們可以爬google每日熱門搜尋關鍵字加入字典，但依然不夠使用 3. 因應第1,2點，我想讓TFIDF值高於某一定值時也能被提取出，但我們知道 TFIDF值會隨著文章字數改變，我不想提取到不重要的詞，因此我們需要一個filter，讓文章字數少時filter高，文章字數多時filter低，想問有甚麼曲線比較適合呢? (如果單純取第三四分位數或TFIDF在前80%以上的字還是有可能取到不重要的詞) 以上三點是我主要的瓶頸，如果還有甚麼方法可以讓模型表現更好，還請不吝指教謝謝各位 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 36.228.66.247 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1580651962.A.798.html ※ 編輯: moodoa3583 (36.228.66.247 臺灣), 02/02/2020 22:00:46

推 kokolotl: 我是用中研院斷詞跟textrank來做 02/03 19:26

嗨，感謝回文。因為ptt上有許多鄉民用語，所以單純用中研院或其他原生套件並不能萃取出好的分詞，才會想要用監督式的方法 ※ 編輯: moodoa3583 (114.137.201.144 臺灣), 02/03/2020 19:56:21

推 steven95421: 有點像bm25讓他飽和？ 02/05 09:08

有點相反過來，bm25應該是輸入n個關鍵字進模型然後找出相關文本？跟搜尋引擎的概念比較像 ※ 編輯: moodoa3583 (114.137.201.144 臺灣), 02/05/2020 09:26:04