[問題] kmeans 大數據 版本

作者f496328mm (為什麼會流淚)

看板R_Language

標題[問題] kmeans 大數據版本

時間Mon Aug 15 15:57:04 2016

跑kmeans出現以下訊息 Warning message: Quick-TRANSfer stage steps exceeded maximum (= 1318974700) 看起來是已達最大值我的data 有2.6千萬筆想問問看有沒有大數據的kmeans版本或是解決方法或是說這是warning所以不用理他??? 謝謝 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.42.97.210 ※ 文章網址: https://www.ptt.cc/bbs/R_Language/M.1471247827.A.EB3.html

→ qhair: 如果會用Spark的話可以用SparkR的kmeans 08/15 20:34

沒用過上網查了一下看起來一樣是R的介面安裝Library 然後要開指令跟Spark做連結想問問看主要的差異特色功能等等的版上相關文章也不多可能要到Spark版上找??

→ celestialgod: 你沒有多台機器跑spark效益就不大了 08/15 22:36

→ Wush978: Sampling? 08/15 23:56

這是什麼?? 目前打算先用一些方法分群類似手動概念自己寫code 把data縮小後再用kmeans套件 ※ 編輯: f496328mm (114.36.53.171), 08/16/2016 13:07:09

→ cywhale: 我知道biganalytics有bigkmeans這個function不過我沒用過 08/16 14:31

謝謝我研究看看 ※ 編輯: f496328mm (114.36.53.171), 08/16/2016 19:04:13

→ clickhere: pmclust::pkmeans 要多大有多大, 只要機器夠多就行. 08/16 22:22