[問題] 讀取中文檔案

作者sansea (情弒月)

看板R_Language

標題[問題] 讀取中文檔案

時間Thu Mar 5 16:14:47 2015

[問題類型]: 程式諮詢(我想用R 做某件事情，但是我不知道要怎麼用R 寫出來) [軟體熟悉度]: 入門(寫過其他程式，只是對語法不熟悉) [問題敘述]: 想要抓PTT的資料來斷詞目前已經可以抓到資料並存成中文檔案可是利用 Corpus(DirSource("docs", encoding = 'UTF-8')) 讀取的時候中文字全部變成 <U+ 開頭的字串把查詢結果存到 TermDocumentMatrix 用 inspect 看結果應該是有斷成功可是全部都變成奇怪的字了阿.... 想請問怎麼把中文字找回來QQ ===已解決=== 原本是在Win8.1上開發換到Win7環境就沒問題了 [程式範例]: 程式碼可以看這邊 http://ideone.com/icNr73 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 118.165.197.23 ※ 文章網址: https://www.ptt.cc/bbs/R_Language/M.1425543290.A.A09.html ※ 編輯: sansea (118.165.197.23), 03/05/2015 16:15:48 ※ 編輯: sansea (118.165.197.23), 03/05/2015 16:17:08

→ psinqoo: R的版本? 03/05 19:31

→ sansea: 3.1.2 03/05 22:40

※ 編輯: sansea (118.165.188.46), 03/06/2015 10:54:31

→ psinqoo: 我猜把R 版本下降就OK 03/08 22:23