Re: [問題] merge 3 tables with summing common var

作者Edster (Edster)

看板R_Language

標題Re: [問題] merge 3 tables with summing common var

時間Mon Oct 12 22:20:34 2015

不會複雜的寫法，簡單一點就好，好懂好維護，雖然merge爆慢。只會這樣(原本想用do.call, 結果不能設定 do.call(merge, data, all = T). 看哪位兄臺能教教 do.call 之中如何設定"what"其餘的參數 a=cbind("A"=sample(1:100,5), "B"=sample(1:50,5), "a"=rnorm(5), "e"=rnorm(5)) b=cbind("A"=sample(1:100,10),"B"=sample(1:50,10),"b"=rnorm(10),"e"=rnorm(10)) c=cbind("A"=sample(1:100,15),"B"=sample(1:50,15),"c"=rnorm(15),"e"=rnorm(15)) d=cbind("A"=sample(1:100,20),"B"=sample(1:50,20),"d"=rnorm(20),"e"=rnorm(20)) L = list(a,b,c,d) merge(L[[1]],L[[2]],by=c("A")) merge(L[[1]],L[[2]],by=c("A","B")) merge(L[[1]],L[[2]],by=c("A","B"),all=T) MultiMerge = function(L, by){ M=L[[1]] for(i in 2:length(L)) M = merge(M,L[[i]],by=by,all=T) return(M) } M=MultiMerge(L,by=c("A","B")) dataCol = c("e.") M = data.frame(M[,-grep(dataCol, colnames(M))], m = rowSums(M[,grep(dataCol, colnames(M))], na.rm=T)) 抱歉我一開始誤會了，原樓主還需要把相同變數名稱的列在固定欄位相加。不過對我來說那已經不叫merge，在我的領域呢，這叫做update 比如說兩張 raster 地圖(extent並不相同)套疊並相加。如果你的A, B兩欄是唯一的，例如地圖的座標，用match在數個data.frame中找對應更快。 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 111.249.19.73 ※ 文章網址: https://www.ptt.cc/bbs/R_Language/M.1444659636.A.249.html ※ 編輯: Edster (111.249.19.73), 10/12/2015 22:22:15 ※ 編輯: Edster (111.249.19.73), 10/12/2015 22:39:24 ※ 編輯: Edster (111.249.19.73), 10/12/2015 22:56:05

推 celestialgod: 我想E大沒看懂他要做的事情... 10/12 23:01

推 celestialgod: 多個merge 可以考慮Reduce 原po有引用我的推文 10/12 23:02

→ cywhale: 的確沒法單純用merge完成，C大第一個方法最簡潔易懂了！ 10/12 23:08

※ 編輯: Edster (140.112.64.48), 10/13/2015 13:55:17 ※ 編輯: Edster (140.112.64.48), 10/13/2015 14:59:42 ※ 編輯: Edster (140.112.64.48), 10/13/2015 15:00:13 ※ 編輯: Edster (140.112.64.48), 10/13/2015 15:04:21

→ celestialgod: 這樣做你無法自動控制哪些column重複，哪些要做和 10/13 15:03

→ celestialgod: 不過runSums的作法很漂亮 10/13 15:04

→ Edster: 試試看吧，可能比c大的慢就是了，畢竟merge會為了找對應 10/13 15:05

→ Edster: 不斷創新列，這樣比一開始就搜尋所有data.frame的對應值慢 10/13 15:06

推 cywhale: 感謝E大提供解法抱歉一開始造成誤解，因為data特性， 10/13 19:31

→ cywhale: 其實是不同取樣站有不同批且不同樣本種類、個數的資料， 10/13 19:32

→ cywhale: 所以一開始就朝處理不同行、列數的多個data去寫code 10/13 19:38

※ 編輯: Edster (140.112.64.48), 10/13/2015 20:21:49