作者Wush978 (拒看低質媒體)
看板R_Language
標題[分享] 五個用R 處理大資料的方法
時間Mon Dec 2 21:57:48 2013
[關鍵字]: R, big data
[出處]:
http://blog.eoda.de/2013/11/27/five-ways-to-handle-big-data-in-r/
[重點摘要]:
1. 怎樣的資料算大?
Hadley Wickham: 當處理資料的時間超過開發程式的時間
Jan Wijffels:
- < 10^6, R 可以容易的處理
- 10^6 ~ 10^9: 花點心思可以用R 處理
- > 10^9: Map Reduce, R + Hadoop
2. 如何處理大資料:
- 抽樣
- 擴充硬體 (64-bit R 最多可以吃 8TB的RAM)
- 在硬碟上處理 (請參考套件ff和ffbase)
- 和C++ 或java整合 (請參考套件Rcpp或rJava)
- 更強大的interpreter (請參考pqR, Renjin, TERR和Oracle R)
--
歡迎到ptt R_Language版分享R 的相關知識
歡迎加入 Taiwan R User Group :
http://www.facebook.com/Tw.R.User
聚會報名
http://www.meetup.com/Taiwan-R/
聚會影片
https://www.youtube.com/user/TWuseRGroup
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 1.34.138.85
推 ww2308:感謝 12/02 23:43
→ gsuper:8TB = =a 是我在用的1000倍 12/03 13:43
推 lin15:記憶體大速度有變快嗎? 12/03 15:52
→ clickhere:memory加大不會變快,只是能載入較多的資料,相對是變慢 12/04 00:30
→ clickhere:1000台8G就有8TB了 12/04 00:32
→ Wush978:會不會變快要case by case來看,因為每個程式的瓶頸都不同 12/04 02:00
→ obarisk:重點應是一般來說R只能在記憶體運作啊 12/04 21:16
推 laba1014:推 12/05 03:16
推 super101:8T機器去那買 12/10 20:06
→ clickhere:去amazon or google租,不用買. 12/10 23:23