看板 R_Language 關於我們 聯絡資訊
嗨,我之前處理tm的時候,也有遇到同樣的問題, 我要抓雙字詞的出現頻率,但tm包都會直接分成兩個字, 例如「social design」會被分成「social」跟「design」, 我的做法是直接把兩個字的空格去掉,黏在一起,然後用gsub()把原文替換成黏起來的, 這樣tm包在處理的時候,就會認為是一個單字了。 希望能夠解決你的問題。 ※ 引述《piercelin (pierce)》之銘言: : [問題敘述]: : 大家好,最近在練習用R跑NLP,目前處理英文文章,在斷詞方面我想使用自己的 : 詞庫進行斷詞,例如文章中"My name is Pierce",正常斷詞會斷在空格處變成"My" "name" : "is" "Pierce",但我想使用自己的詞庫讓斷詞變成:"My name" "is" "Pierce"。 : 目前Google關鍵字name entity recognition已經搜尋過,試過openNLP package, : 但都沒有辦法達到我想要的效果(使用自己的詞庫進行斷詞),請問其他有經驗的大大有 : 什麼解決的辦法嗎? : [環境敘述]: : R version 3.4.2 (2017-09-28) : Platform: x86_64-w64-mingw32/x64 (64-bit) : Running under: Windows >= 8 x64 (build 9200) : [關鍵字]: : NLP、斷詞、name entity recognition -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 1.161.230.25 ※ 文章網址: https://www.ptt.cc/bbs/R_Language/M.1521033954.A.E52.html
newdawn1106: 謝謝你,你的方法我目前正在嘗試,成功了再上來回覆 03/16 19:12
newdawn1106: 給可能需要的人 03/16 19:12
piercelin: 感謝D大的分法,英文斷詞確實比較難像中文依樣給予自訂 03/25 14:11
piercelin: 詞庫(原諒小弟不才QQ),靠著大大的方法成功解決問題, 03/25 14:12
piercelin: 謝謝! 03/25 14:12