看板 DataScience 關於我們 聯絡資訊
抱歉,重新改寫,前幾天生病有工作,心有餘了而不足,頭腦有點昏又焦急,在這更新一 下,希望能幫助以後有同樣困擾的人。 小弟目前正在學習資料分析,想到kaggle 練功,所以在這想請問幾個問題......麻煩各 位了 首先是統計軟體的問題,請問SAS、RStdio、Python可以跑多大的資料? 第二個是bigquery,如果用私服器跑資料分析,一定得用linux嗎? 因為我看到RSudio s erver只能用linux...最主要是因為前陣子有興趣的變項很多都在biqquery,所以才想挑 戰看看 第三個是linux,如果我想操作linux,是否需要把電腦重灌作業系統? 又或者是買新的一台新的電競桌電(強的cpu、gpu、記憶體)? 因為之前用mac,結果sas不能用,今年一月才入手了一台七萬多的Thinkpad,現在已經有 兩台筆電了!所以很矛盾QAQ 抱歉 問題這麼多...最近真的很焦慮 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 42.77.79.151 ※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1554445133.A.05C.html
egoweaver: 在本機上跑不需要 RStudio server,單純使用的狀況能跑04/05 14:46
egoweaver: 的資料大小受你的記憶體大小限制。04/05 14:46
egoweaver: 要上 Google Cloud 跑 bigquery 的話跟你本機的作業系04/05 14:47
egoweaver: 統沒有關係,Rstudio server 也是要部署在伺服器端。04/05 14:47
egoweaver: Google 有官方文件說明怎麼在他們的主機部署 Rstudio04/05 14:49
egoweaver: 請詳讀說明文件:http://tinyurl.com/y6r8thvr04/05 14:49
st1009: 其實你標題可以取跟問題本身有關一點,然後有種技術叫雙系04/05 15:13
st1009: 統,windows+linux大讚04/05 15:13
st1009: 買新電腦CP應該不會比灌雙系統高,如果你電腦容量不夠,也04/05 15:16
st1009: 可以用行動硬碟灌linux,那顆硬碟帶到哪,linux就到哪04/05 15:16
f496328mm: 第一,先把 SAS 刪掉,貴又只在特定領域有用 04/05 15:47
f496328mm: R 跟 python,超過 10gb or 上億筆 data 都可04/05 15:48
f496328mm: linux 好用多了,windows 簡直爛04/05 15:48
f496328mm: mac 筆電不考慮,記憶體小,cp 值超低 04/05 15:49
nohunt: 還有個辦法 用VM開Linux 04/05 20:26
sma1033: MAC缺點好像是同價位硬體都弱一截04/05 20:59
sma1033: 基本上只要硬體夠塞,理論上沒到TB等級的資料沒問題04/05 20:59
sma1033: 至少我用py自己跑幾百G都還滿OK的(完全看硬體等級啦)04/05 21:00
truehero: KAGE? KAGGLE ?如果是KAGGLE就直接用KAGGLE KERNEL....04/06 00:23
truehero: 或是上COLAB就好 ...04/06 00:23
sunkao1035: 當然是在server或雲上跑分析呀04/06 01:37
※ 編輯: filialpiety (223.138.66.254), 04/06/2019 22:02:51
filialpiety: 感謝樓上各位大大的協助,我會努力的 04/06 22:03
sxy67230: 如果是實驗或比賽,用kernel或是Colab就好了。我自己的 04/08 10:37
sxy67230: 經驗是python中有很多批量處理的方式,像是generator或 04/08 10:37
sxy67230: 是pandas有專門給批量處理的生成方式,相對他就只佔固定 04/08 10:37
sxy67230: 的記憶體,至於sklearn也有對應增量學習的方法,線性的s 04/08 10:37
sxy67230: vm可以用SGD改成hinge loss,非線性的話,目前沒有效的 04/08 10:37
sxy67230: 方式處理(可以去聽吳恩達教授的課,他有說明),至於DL 04/08 10:37
sxy67230: 本身就有batch的方式處理了。軟體解決的方案都考慮過, 04/08 10:37
sxy67230: 在去處理硬體。詳細的軟體寫法可以去python 版問 04/08 10:37
sxy67230: 基本上,colab的cpu跟gpu都很夠了,除非你的服務是要上 04/08 12:52
sxy67230: 線的,要不然純粹開發階段,Colab就很爽啦,到哪都可以 04/08 12:52
sxy67230: 開發,只要一條網路線就好了,我都在用文書機寫code了 04/08 12:52
sxy67230: 最後就是還真的記憶體不夠用,記得檢查哪些記憶體是可以 04/08 13:03
sxy67230: 釋放的,哪些可以重複使用,不要被高階語言跟硬體慣壞, 04/08 13:03
sxy67230: 系統釋放跟管理系統資源是程式設計者的本分,創了一堆無 04/08 13:03
sxy67230: 用的array當然記憶體會不夠用 04/08 13:03