[問題] Spark平台

作者jgj12321 (Creat yourself)

看板R_Language

標題[問題] Spark平台

時間Thu Jan 10 21:08:59 2019

[問題類型]: 請把以下不需要的部份刪除意見調查(我對R 有個很棒的想法，想問問大家的意見) 程式諮詢(我想用R 做某件事情，但是我不知道要怎麼用R 寫出來) 效能諮詢(我想讓R 跑更快) [軟體熟悉度]: 新手(沒寫過程式，R 是我的第一次) [問題敘述]: 請問整理百萬筆的資料用Spark有比用原本Rstudio還快嗎? 看很多中文網頁都說Spark可以加快速度，有沒有人實作過能分享經驗的>< 用筆電跑資料好慢/_\ -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 36.225.146.241 ※ 文章網址: https://www.ptt.cc/bbs/R_Language/M.1547125743.A.E75.html

→ Luluemiko: 看實際資料是多少，百萬筆應該是不太能感受到有無spar 01/10 21:45

→ Luluemiko: k的差別 01/10 21:45

所以L大有用過囉!? 可以分享整理多少資料跟原本插了多少時間嗎 ※ 編輯: jgj12321 (36.225.146.241), 01/10/2019 21:56:14 ※ 編輯: jgj12321 (36.225.146.241), 01/10/2019 22:04:06

→ Luluemiko: 我猜測的，沒實際比過data.table跟spark的差異 01/10 23:25

→ Luluemiko: 我的看法是可以更詳細描述一下使用的情境 01/10 23:27

→ Luluemiko: 比方說效能瓶頸是卡在哪一個步驟的計算 01/10 23:29

→ celestialgod: 百萬筆的話 data.table還是比較快 01/11 12:23

→ celestialgod: spark主要是連到server 串接多台server才會快 01/11 12:24

→ celestialgod: 但是網路傳輸的速度遠慢於計算 01/11 12:24

→ celestialgod: 完全划不來.... 01/11 12:24

不懂C大您的意思是說 1. 一定要多台才能Spark? 2.不懂為什麼計算速度會慢於網路傳輸速度，我是用100M網路，可是常常Run到10分鐘以上 ※ 編輯: jgj12321 (36.225.146.241), 01/11/2019 17:20:19

→ cywhale: 就是因計算速度>網路傳輸，所以效能會卡在傳輸，除非你 01/11 17:23

推 cywhale: 你資料大到必須靠多台運算而且傳輸損失的時間已可以忽略 01/11 17:25

那請問有可能用雲端計算跑然後傳回我電腦的速度比我的電腦還快嗎? 還是要實際測試才知道呢? ※ 編輯: jgj12321 (36.225.146.241), 01/11/2019 18:19:41

→ f496328mm: 真的要玩分散式，網路是重點，GOOGLE在這方面有優勢 01/12 21:22

→ f496328mm: 他有自己的海底電纜，自己有網路 01/12 21:22

→ f496328mm: 100M的網路很慢，你看看你硬碟、記憶體傳輸多快 01/12 21:23

→ f496328mm: 分散式，多台之前怎麼聯繫?就是靠網路 01/12 21:23

→ f496328mm: 網路慢，算得快也沒用，終究會被網速限制 01/12 21:23

→ f496328mm: 然後，不是一定要多台才能SPARK 01/12 21:24

→ f496328mm: 他就是分散式系統，你單機就違背當初概念 01/12 21:25

→ f496328mm: 跑很慢，主要原因可能是code寫法、筆電弱 01/12 21:26

→ f496328mm: 同一種資料整理，不同R寫法，速度可差到10倍以上 01/12 21:26

可是大大計算不是主要用CPU嗎，請問跟網速有什麼關係呢... ※ 編輯: jgj12321 (118.160.78.144), 01/12/2019 21:29:54

→ f496328mm: 這樣講好了，1TB data 要建模，單一設備玩不了 01/12 21:31

→ f496328mm: 所以分散給100台電腦，去建 model 01/12 21:32

→ f496328mm: data就是要靠網路傳輸 01/12 21:32

→ celestialgod: 更正樓上說的，單台不見得很慢啦，原po的資料量用不 01/14 08:44

→ celestialgod: 太到spark，多台電腦的話，比較能夠用上spark的powe 01/14 08:44

→ celestialgod: r，但是多台就是會有網路速度跟運算速度問題，運算 01/14 08:44

→ celestialgod: 太快剩下就會變成都在等傳輸。 01/14 08:44

→ celestialgod: 至於雲端平台的話，傳輸可能要更久，因為要經過滿多 01/14 08:45

→ celestialgod: 層才能到你的電腦，當然還是實際測試比較準 01/14 08:45

推 celestialgod: 還是建議原po把要解決的問題po上來，看看是不是可以 01/14 08:46

推 celestialgod: 用其他方法解決。 01/14 08:46

推 evilove: 如果只是整理資料不考慮用SQL做嗎? 01/15 12:36

→ f496328mm: SQL能做的有限 01/16 02:52

→ celestialgod: SQL有時候要做到程式只要幾行的邏輯可能要寫很久 01/16 21:53

→ celestialgod: 而且不見得有比較好的performance 01/16 21:53

→ celestialgod: 但是SQL在處理相對簡單的資料前處理還是比較方便 01/16 21:54

推 h88129: 資料大到記憶體裝不下才需要資料庫吧@@ 如果記憶體夠其 03/29 12:26

→ h88129: 實用核心去做分散運算就好了 03/29 12:26

→ h88129: 可以嘗試foreach+doparallel , 真的不行在用MPI的方式去 03/29 12:27

→ h88129: 做串接 03/29 12:27