作者popcorny (畢業了..@@")
看板java
標題Re: [問題] 想在Scala的RDD物件中更新變量
時間Mon Mar 20 22:39:15 2017
※ 引述《iwantstronge (...)》之銘言:
: 版友們好~
: 最近剛學Scala, 有個問題卡了很久
: 當我把檔案用RDD讀進來:
: val input = sc.textfile("myfile.txt")
: 接著逐行讀取這個檔案(RDD),
: 在裡面用一個容器(HashMap, Array, List之類的)儲存每一行的一些資訊
input.map(line => (line, 1)).reduceByKey(_ + _).collect
回傳是一個tuple array 自己再轉回HashMap
更簡單的是
input.distinct().collect
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 36.229.40.244
※ 文章網址: https://www.ptt.cc/bbs/java/M.1490020758.A.F43.html
※ 編輯: popcorny (36.229.40.244), 03/20/2017 22:40:13
※ 編輯: popcorny (36.229.40.244), 03/20/2017 22:41:03
推 iwantstronge: 感謝回覆,其實我會想轉成HashMap主要是時間效率好 03/21 10:56
→ iwantstronge: 如果資料量太大是否就只能以RDD來處理?lookup()之 03/21 10:57
→ iwantstronge: 類的~~ 但是時間效率很差~ 03/21 10:58
推 v9290026: lookup多大?有沒有考慮broadcast放不放得下或nosql 03/21 20:06