看板 java 關於我們 聯絡資訊
※ 引述《iwantstronge (...)》之銘言: : 版友們好~ : 最近剛學Scala, 有個問題卡了很久 : 當我把檔案用RDD讀進來: : val input = sc.textfile("myfile.txt") : 接著逐行讀取這個檔案(RDD), : 在裡面用一個容器(HashMap, Array, List之類的)儲存每一行的一些資訊 input.map(line => (line, 1)).reduceByKey(_ + _).collect 回傳是一個tuple array 自己再轉回HashMap 更簡單的是 input.distinct().collect -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 36.229.40.244 ※ 文章網址: https://www.ptt.cc/bbs/java/M.1490020758.A.F43.html ※ 編輯: popcorny (36.229.40.244), 03/20/2017 22:40:13 ※ 編輯: popcorny (36.229.40.244), 03/20/2017 22:41:03
iwantstronge: 感謝回覆,其實我會想轉成HashMap主要是時間效率好 03/21 10:56
iwantstronge: 如果資料量太大是否就只能以RDD來處理?lookup()之 03/21 10:57
iwantstronge: 類的~~ 但是時間效率很差~ 03/21 10:58
v9290026: lookup多大?有沒有考慮broadcast放不放得下或nosql 03/21 20:06