看板 R_Language 關於我們 聯絡資訊
[問題類型]: 建立TermDocumentMatrix作文檔矩陣時出現亂碼 程式諮詢 [軟體熟悉度]: 新手(沒寫過程式,R 是我的第一次) [問題敘述]: R 3.3.3 (32-bit) 我正在做ptt網路爬蟲的文本探勘, 參考 陳嘉葳用R進行中文 text Mining,前面 都很順利直到在建立 TermDocumentMatrix作文檔矩陣時,就出現錯誤了, inspect(tdm[1:10, 1:2]) ############# Error in nchar(Terms(x), type = "chars") : invalid multibyte string, element 1 ############## 於是檢查了一下文檔,執行查看停用字head(myStopWords,20)出現是正確的文字(非 亂碼),所以應該不是編碼問題,在findFreqTerms看關鍵字時文字就變亂碼了。麻 煩各位幫我解惑一下怎麼排解文檔矩陣出現亂碼的問題。 Environment https://goo.gl/zlJTQb 指令 https://goo.gl/zKDl5j [環境敘述]: R 3.3.3 (32-bit) -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 1.173.141.139 ※ 文章網址: https://www.ptt.cc/bbs/R_Language/M.1491023327.A.366.html ※ 編輯: saladang (1.173.141.139), 04/01/2017 13:10:32
wheado: http://goo.gl/KtBzF0 這是我之前寫的,你試試看吧 04/02 18:09
saladang: 謝謝w大,試過您的,結果還是沒有成功解決問題。 04/03 18:18
wheado: 你要不要把code放上來,我有空幫你看一下 04/03 19:11
bluecadence: 剛剛無聊把 "陳嘉葳用R進行中文 text Mining" 跑了一 04/03 20:04
bluecadence: 次 :p http://imgur.com/GAWFWA8 沒出問題 04/03 20:05
bluecadence: 不過我用的是 R-3.3.2 on Slackware linux 04/03 20:05
bluecadence: http://imgur.com/Qsysy2h 04/03 20:27
已經將部分指令以圖片方式放上,請各位幫忙 ※ 編輯: saladang (36.236.90.159), 04/03/2017 23:23:08 ※ 編輯: saladang (36.236.90.159), 04/03/2017 23:42:12
bluecadence: 不知道你問題解決了沒,我在想你的語言編碼是用utf8 04/06 07:48
bluecadence: 還是用big5 ? 04/06 07:48
bluecadence: 你用陳嘉葳text Mining的script方法,裡面有用到中國 04/06 07:50
bluecadence: 簡體 GB2312 的東西,會不會是這個問題? 04/06 07:51
saladang: 問題還沒解決,我的是utf8 04/06 17:26
kenson: google 到的 跑TDM前 多跑一行 04/10 23:21
kenson: 1Sys.setlocale(category='LC_ALL', locale='C') 04/10 23:21
kenson: 更正 "Sys.setlocale(category='LC_ALL', locale='C')" 04/10 23:28
prettyskys: 遇到同樣的問題耶 求解TT 04/16 00:44
minchang: 用Sys.setlocal語系設為C,還是沒用... 05/01 15:49
minchang: 請問有其它解法嗎? 05/01 15:49