[問題] R 如何計算 txt 檔案中每個字出現的頻率

作者toxicsweet (toxic)

看板R_Language

標題[問題] R 如何計算 txt 檔案中每個字出現的頻率

時間Wed Jun 8 07:05:29 2016

[問題類型]: 程式諮詢 [軟體熟悉度]: 介於入門和使用者之間 [問題敘述]: 手邊有個txt文件，目前先使用read.table讀進R後，原本想使用text mining 的package (tm)來計算出每個字出現的頻率。以一個兩列的文件為例：第一列：I like it, can you share it? 第二列：Yes, I would like to! 想得到： I like it can you share yes would to 2 2 2 1 1 1 1 1 1 但翻了一下tm package還是不知道該怎麼套用，或是有其他作法可以得到呢？ -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 180.217.130.57 ※ 文章網址: https://www.ptt.cc/bbs/R_Language/M.1465340732.A.5ED.html

推 JackBaska: 英文嗎 ? 英文的話比較好處理, strsplit用 " " 隔開 06/08 07:42

→ JackBaska: 然後合併成一維向量後做元素統計就好了 06/08 07:43

→ Wush978: 量大嗎？ 06/08 10:11

→ toxicsweet: 英文，量很大，檔案約有200MB 06/08 18:25

→ toxicsweet: 這邊只是舉兩列的例子，但實際有超過百萬列。 06/08 18:26

→ Wush978: tm_lite? 06/08 18:59

→ toxicsweet: tmlite裡面的哪個functiin可以做到這件事呢？ 06/09 10:24