[問題] 很多很蠢的問題？

作者filialpiety (filialpiety)

看板DataScience

標題[問題] 很多很蠢的問題？

時間Fri Apr 5 14:18:51 2019

抱歉，重新改寫，前幾天生病有工作，心有餘了而不足，頭腦有點昏又焦急，在這更新一下，希望能幫助以後有同樣困擾的人。小弟目前正在學習資料分析，想到kaggle 練功，所以在這想請問幾個問題......麻煩各位了首先是統計軟體的問題，請問SAS、RStdio、Python可以跑多大的資料？第二個是bigquery，如果用私服器跑資料分析，一定得用linux嗎？因為我看到RSudio s erver只能用linux...最主要是因為前陣子有興趣的變項很多都在biqquery，所以才想挑戰看看第三個是linux，如果我想操作linux，是否需要把電腦重灌作業系統？又或者是買新的一台新的電競桌電（強的cpu、gpu、記憶體）？因為之前用mac，結果sas不能用，今年一月才入手了一台七萬多的Thinkpad，現在已經有兩台筆電了！所以很矛盾QAQ 抱歉問題這麼多...最近真的很焦慮 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 42.77.79.151 ※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1554445133.A.05C.html

推 egoweaver: 在本機上跑不需要 RStudio server，單純使用的狀況能跑04/05 14:46

→ egoweaver: 的資料大小受你的記憶體大小限制。04/05 14:46

→ egoweaver: 要上 Google Cloud 跑 bigquery 的話跟你本機的作業系04/05 14:47

→ egoweaver: 統沒有關係，Rstudio server 也是要部署在伺服器端。04/05 14:47

→ egoweaver: Google 有官方文件說明怎麼在他們的主機部署 Rstudio04/05 14:49

→ egoweaver: 請詳讀說明文件：http://tinyurl.com/y6r8thvr04/05 14:49

推 st1009: 其實你標題可以取跟問題本身有關一點，然後有種技術叫雙系04/05 15:13

推 st1009: 統，windows+linux大讚04/05 15:13

推 st1009: 買新電腦CP應該不會比灌雙系統高，如果你電腦容量不夠，也04/05 15:16

推 st1009: 可以用行動硬碟灌linux，那顆硬碟帶到哪，linux就到哪04/05 15:16

→ f496328mm: 第一，先把 SAS 刪掉，貴又只在特定領域有用 04/05 15:47

→ f496328mm: R 跟 python，超過 10gb or 上億筆 data 都可04/05 15:48

→ f496328mm: linux 好用多了，windows 簡直爛04/05 15:48

→ f496328mm: mac 筆電不考慮，記憶體小，cp 值超低 04/05 15:49

→ nohunt: 還有個辦法用VM開Linux 04/05 20:26

→ sma1033: MAC缺點好像是同價位硬體都弱一截04/05 20:59

→ sma1033: 基本上只要硬體夠塞，理論上沒到TB等級的資料沒問題04/05 20:59

→ sma1033: 至少我用py自己跑幾百G都還滿OK的（完全看硬體等級啦）04/05 21:00

→ truehero: KAGE? KAGGLE ?如果是KAGGLE就直接用KAGGLE KERNEL....04/06 00:23

→ truehero: 或是上COLAB就好 ...04/06 00:23

推 sunkao1035: 當然是在server或雲上跑分析呀04/06 01:37

※ 編輯: filialpiety (223.138.66.254), 04/06/2019 22:02:51

→ filialpiety: 感謝樓上各位大大的協助，我會努力的 04/06 22:03

→ sxy67230: 如果是實驗或比賽，用kernel或是Colab就好了。我自己的 04/08 10:37

→ sxy67230: 經驗是python中有很多批量處理的方式，像是generator或 04/08 10:37

→ sxy67230: 是pandas有專門給批量處理的生成方式，相對他就只佔固定 04/08 10:37

→ sxy67230: 的記憶體，至於sklearn也有對應增量學習的方法，線性的s 04/08 10:37

→ sxy67230: vm可以用SGD改成hinge loss，非線性的話，目前沒有效的 04/08 10:37

→ sxy67230: 方式處理（可以去聽吳恩達教授的課，他有說明），至於DL 04/08 10:37

→ sxy67230: 本身就有batch的方式處理了。軟體解決的方案都考慮過， 04/08 10:37

→ sxy67230: 在去處理硬體。詳細的軟體寫法可以去python 版問 04/08 10:37

→ sxy67230: 基本上，colab的cpu跟gpu都很夠了，除非你的服務是要上 04/08 12:52

→ sxy67230: 線的，要不然純粹開發階段，Colab就很爽啦，到哪都可以 04/08 12:52

→ sxy67230: 開發，只要一條網路線就好了，我都在用文書機寫code了 04/08 12:52

→ sxy67230: 最後就是還真的記憶體不夠用，記得檢查哪些記憶體是可以 04/08 13:03

→ sxy67230: 釋放的，哪些可以重複使用，不要被高階語言跟硬體慣壞， 04/08 13:03

→ sxy67230: 系統釋放跟管理系統資源是程式設計者的本分，創了一堆無 04/08 13:03

→ sxy67230: 用的array當然記憶體會不夠用 04/08 13:03