[問題] Rwordseg自定義詞庫

作者dustnight (一起做個有溫度的人)

看板R_Language

標題[問題] Rwordseg自定義詞庫

時間Sat Apr 22 16:28:23 2017

[問題類型]:程式諮詢 [軟體熟悉度]: 新手(沒寫過程式，R 是我的第一次) [問題敘述]: 最近在做text mining的練習，由於斷詞的過程需要考量一些專有名詞，因此採用Rwordseg進行斷詞，斷詞的過程當中，會遇到安裝詞典/或是使用自定義詞典的狀況，產生了一些問題想來請問前輩們。 1. 在使用installDict時，想安裝NTUSD的資料辭典，使用以下指令： installDict(file.choose(),"positive",dicttype="text") 但是安裝後卻出現 1 words were loaded! ... New dictionary 'positive' was installed! There were 50 or more warnings (use warnings() to see the first 50) Warning messages: 1: In readLines(dictpath, encoding = dic.enc) : line 1 appears to contain an embedded nul 等問題，看起來是有安裝成功但是點進去dic檔案裡面看卻發現只有一個詞彙(原本txt檔案想來請問各位前輩們是否有遇到過類似問題，又該怎麼解決？ 2. 在自定義詞庫時，我用insertwords("畢業證書",save=T)來增加畢業證書這個詞彙但是在segmentCN("自己的畢業證書自己撿")做測試時，卻仍然會有 [1] "自己" "的" "畢業" "證書" "自己" "撿" 的狀況,（反而結巴還會斷出畢業證書...) 是我沒有增加詞庫成功嗎？ 3. 目前不使用結巴的原因在於不確定結巴是否可以自行增加詞庫 [環境敘述]: R version 3.3.3 (2017-03-06) Platform: x86_64-apple-darwin13.4.0 (64-bit) Running under: OS X El Capitan 10.11.6 locale: [1] zh_TW.UTF-8/zh_TW.UTF-8/zh_TW.UTF-8/C/zh_TW.UTF-8/zh_TW.UTF-8 attached base packages: [1] stats graphics grDevices utils datasets methods base other attached packages: [1] igraph_1.0.1 wordcloud_2.5 RColorBrewer_1.1-2 Rwordseg_0.2-1 [5] jiebaR_0.9.1 jiebaRD_0.1 rJava_0.9-8 tm_0.7-1 [9] NLP_0.1-9 tmcn_0.1-4 loaded via a namespace (and not attached): [1] magrittr_1.5 parallel_3.3.3 tools_3.3.3 Rcpp_0.12.7 slam_0.1-38 [關鍵字]: text mining, Rwordseg -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 140.115.87.240 ※ 文章網址: https://www.ptt.cc/bbs/R_Language/M.1492849707.A.F30.html

→ sulaxd: 結巴可以新增詞庫 edit_dict() 04/22 17:52

→ dustnight: 謝謝您,但是我加進去後它顯示error decode的錯誤耶,請 04/22 19:29

→ dustnight: 問是只能加上簡體中文內文的檔案嗎? 04/22 19:29

推 clansoda: 結巴github上面的documentation寫得很清楚可以看看 04/22 20:10

→ dustnight: 好的～謝謝您 04/23 00:00