推 playaround: 謝謝,我會再好好試一下XD 08/25 04:43
: 想再請教一下各位,不知道R語言對於資料量的處理效率是如何?
: 因為我在嘗試各位提供的方法時,發現把檔案丟進去處理
: 在下面console的地方等很久還是沒有>出現
: 想把過程中的一個階段的data也點出來看也常常是還在跑的空白XD
: 我的data全部約57萬筆
: 因為之前只有load過10萬筆內的資料去練習畫圖之類的而已
: 所以不知道是不是上到這個數字量的資料後 R在執行上就會比較需要時間?
: 或是可能只是我程式有地方沒改好XD
: ※ 編輯: playaround (114.35.98.14), 08/23/2017 03:13:54
: → f496328mm: 應該是程式不熟悉的問題 57萬筆不算大 08/23 12:34
: → f496328mm: 我目前處理超過千萬的data 都很順 08/23 12:35
讓我測試一下我的程式...,我測80萬筆都是三十秒內可以結束...
資料生成的程式:
library(data.table)
library(stringr)
# 假設是八十萬筆
N <- 8e5L
# 產生資料
DT <- data.table(time = str_c("time", 1L:N), a = sample(1L:20L, N, TRUE),
b = sample(1L:100L, N, TRUE), c = sample(LETTERS, N, TRUE))
outStr <- str_c(DT$time, "\na = ", DT$a, "\nb = ", DT$b, "\nc = ", DT$c,
collapse = "\n")
write(outStr, "out.txt")
資料preview: http://imgur.com/kaB0fWq
資料preview: http://imgur.com/KKSgcjy
法一:http://imgur.com/Q7nv1GO
22秒解決
法二: http://imgur.com/TJFmXEd
17秒解決
電腦配備: [email protected], DRR3-2133 8G * 4, 美光MX200 512GB
--
R資料整理套件系列文:
magrittr #1LhSWhpH (R_Language) https://goo.gl/72l1m9
data.table #1LhW7Tvj (R_Language) https://goo.gl/PZa6Ue
dplyr(上.下) #1LhpJCfB,#1Lhw8b-s (R_Language) https://goo.gl/I5xX9b
tidyr #1Liqls1R (R_Language) https://goo.gl/i7yzAz
pipeR #1NXESRm5 (R_Language) https://goo.gl/zRUISx
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 36.233.81.197
※ 文章網址: https://www.ptt.cc/bbs/R_Language/M.1503489426.A.815.html
※ 編輯: celestialgod (36.233.81.197), 08/23/2017 20:12:54