看板 DataScience 關於我們 聯絡資訊
嗨大家晚安 我想問一個我最近碰到的問題: 假設我想為PTT上每一篇熱門文章標上關鍵字,若以非監督式學習直接套用TFIDF 分類,準確率我們都知道和人類想比是望塵莫及的。 所以假設我們已經手動標註了5000篇文章。並產生一萬個關鍵字 (其中有7000個關鍵字不重複), 此時我們可以把這七千個關鍵字加入分詞字典,讓文章可以更如我們所願地被分詞, 同時在這些關鍵字上帶上加權,只要分詞出來的詞在這些關鍵字裡面,就給 x*(關鍵字出現次數) 舉例來說,這一萬個關鍵字裡面,"口罩"出現了24次,那就給24x當權重 如此一來,關鍵字的準確度的確能夠有所提升,但出現了以下的缺點: 1. 若非在這手動分出的7000個關鍵字裡面,則幾乎不可能被當關鍵字被提出, 原因可能為加權太重,但如果加權太輕,則會有許多無關緊要的字詞被提取出 2. 機器無法學習新字,雖然我們可以爬google每日熱門搜尋關鍵字加入字典, 但依然不夠使用 3. 因應第1,2點,我想讓TFIDF值高於某一定值時也能被提取出,但我們知道 TFIDF值會隨著文章字數改變,我不想提取到不重要的詞,因此我們需要一個filter, 讓文章字數少時filter高,文章字數多時filter低,想問有甚麼曲線比較適合呢? (如果單純取第三四分位數或TFIDF在前80%以上的字還是有可能取到不重要的詞) 以上三點是我主要的瓶頸,如果還有甚麼方法可以讓模型表現更好,還請不吝指教 謝謝各位 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 36.228.66.247 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1580651962.A.798.html ※ 編輯: moodoa3583 (36.228.66.247 臺灣), 02/02/2020 22:00:46
kokolotl: 我是用中研院斷詞跟textrank來做 02/03 19:26
嗨,感謝回文。因為ptt上有許多鄉民用語,所以單純用中研院或其他原生套件並不能萃取出好的分詞,才會想要用監督式的方法 ※ 編輯: moodoa3583 (114.137.201.144 臺灣), 02/03/2020 19:56:21
steven95421: 有點像bm25讓他飽和? 02/05 09:08
有點相反過來,bm25應該是輸入n個關鍵字進模型然後找出相關文本?跟搜尋引擎的概念比較像 ※ 編輯: moodoa3583 (114.137.201.144 臺灣), 02/05/2020 09:26:04