[問題] 矩陣的處理...拜求各位大大

作者s3714443 (metalheads)

看板R_Language

標題[問題] 矩陣的處理...拜求各位大大

時間Sun Aug 27 15:25:13 2017

http://imgur.com/a/1s7Is 資料大概是長這樣我想要處理的是：像第8 row就有兩個非0的數字那我就是取最左的那column 26.57這個數字倒數第2 row 有26.43跟26.57這兩個數字那就是取最左邊column的26.43 反正就是先選取特定column(MA10down1~MA10donw9)之中逐row先看有沒有非0的數字，有就取最左column的，沒有就取0 然後就是mutate出來新的一行我想不到除了sapply之外的辦法了但是我的資料有500多萬筆 sapply可能會跑到電腦燒掉ＸＤ感恩各位 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 180.218.92.245 ※ 文章網址: https://www.ptt.cc/bbs/R_Language/M.1503818717.A.A30.html

→ carl090105: 你是指row嗎？第八行看起來有三個非零。試過apply嗎m 08/27 16:20

→ carl090105: argin=1 08/27 16:20

→ celestialgod: 原PO行列不分QQ 應該是第八列根倒數第二列 08/27 18:12

→ celestialgod: 希望原PO下次能直接提供簡單資料的程式碼比較好 08/27 18:12

→ celestialgod: 因為圖裡面也沒有全部都是0的列... 08/27 18:13

→ celestialgod: 特定欄也應該改成特定列 08/27 18:13

→ celestialgod: 感謝原PO 08/27 18:13

→ s3714443: 感謝提醒我改正一下 08/27 18:49

※ 編輯: s3714443 (180.218.92.245), 08/27/2017 18:51:54 > -------------------------------------------------------------------------- < 作者: swedrf0112 (M) 看板: R_Language 標題: Re: [問題] 矩陣的處理...拜求各位大大時間: Sun Aug 27 17:10:46 2017 拋磚引玉，提供兩個方法XD ## 方法1: 使用 apply # 生成測試資料 d1 = data.frame(matrix(c(0,1,2,0,0,0,1,0,2,0,2,1),nrow=4,byrow=T)) d1 ### X1 X2 X3 ### 1 0 1 2 ### 2 0 0 0 ### 3 1 0 2 ### 4 0 2 1 apply(d1,1,function(x){ ind = which(x!=0) return(ifelse(length(ind)==0,0,x[min(ind)])) }) ## [1] 1 0 1 2 裡面的 ifelse 主要是針對 0,0,0 取 min(ind) 的時候會有 Warning 不然直接 return(x[min(which(x!=0))]) 也可以XD ## 方法2: 使用 data.table library(data.table) d2 = data.table(d1) findLeftValueF = function(input, ...){ x = unlist(input) ## 每一列都是 List 物件，所以要做 unlist ind = which(x!=0) return(ifelse(length(ind)==0,0,x[min(ind)])) } d2[, val := findLeftValueF(.SD),by=row.names(d2)] d2$val ## [1] 1 0 1 2 至於哪個比較快我就沒測了，應該會比 sapply 效率好點XD 有錯誤的話請板上各位大大再指教囉~ ※ 引述《s3714443 (metalheads)》之銘言： : http://imgur.com/a/1s7Is : 資料大概是長這樣 : 我想要處理的是： : 像第八行就有兩個非0的數字 : 那我就是取最左的那排 26.57這個數字 : 倒數第二排有26.43跟26.57這兩個數字 : 那就是取最左邊的26.43 : 反正就是特定欄之中先看有沒有非0的數字，有就取最左的，沒有就取0 : 然後就是mutate出來新的一行 : 我想不到除了sapply之外的辦法了 : 但是我的資料有500多萬筆 : sapply可能會跑到電腦燒掉ＸＤ : 感恩各位 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 1.169.57.26 ※ 文章網址: https://www.ptt.cc/bbs/R_Language/M.1503825048.A.0CB.html ※ 編輯: swedrf0112 (1.169.57.26), 08/27/2017 17:13:01

→ celestialgod: apply底層就是sapply了... 08/27 17:12

→ swedrf0112: 感謝樓上c大又學到了XD 08/27 17:14

→ celestialgod: 不管怎樣你的方式都是row-wise都會慢很多 08/27 17:45

→ celestialgod: 還是要想辦法直接用vectorise想法直接處理 08/27 17:45

→ celestialgod: 才是根解 08/27 17:45

推 s3714443: 對因為資料很大所以想用矩陣的思維處理但還是感謝這 08/27 18:56

→ s3714443: 位大大 08/27 18:56

> -------------------------------------------------------------------------- < 作者: celestialgod (天) 看板: R_Language 標題: Re: [問題] 矩陣的處理...拜求各位大大時間: Sun Aug 27 17:43:21 2017 ※ 引述《s3714443 (metalheads)》之銘言： : http://imgur.com/a/1s7Is : 資料大概是長這樣 : 我想要處理的是： : 像第八行就有兩個非0的數字 : 那我就是取最左的那排 26.57這個數字 : 倒數第二排有26.43跟26.57這兩個數字 : 那就是取最左邊的26.43 : 反正就是特定欄之中先看有沒有非0的數字，有就取最左的，沒有就取0 : 然後就是mutate出來新的一行 : 我想不到除了sapply之外的辦法了 : 但是我的資料有500多萬筆 : sapply可能會跑到電腦燒掉ＸＤ : 感恩各位 # 資料生成 n <- 5e5 + 12 m <- 8 r <- 2 X <- matrix(0, n, m) for (i in seq(1, n - 5, by = m-r)) X[cbind(i:(i+7), m:1)] <- rnorm(1) X[cbind((n-1):n, 8:7)] <- rnorm(1) # 隨機抽10000列讓整列變成0 zeroLocIdx <- sample(n, 10000) X[zeroLocIdx, ] <- 0 # 程式開始 st <- proc.time() # 取出全部不等於0的位置，並以matrix矩陣表示 row跟column位置 (arr.ind) tmp <- which(X != 0, arr.ind = TRUE) # 對每一個row取最小的column index out <- tapply(tmp[ ,2], tmp[ ,1], min) # 組出位置矩陣 locMat <- cbind(row = as.integer(names(out)) , col = out) # 處理非0部分 zeroLocIdx2 <- setdiff(1:nrow(X), locMat[ , 1]) if (length(zeroLocIdx2) > 0) locMat <- rbind(locMat, cbind(zeroLocIdx2, 1)) # 排序 locMat <- locMat[order(locMat[ , 1]), ] # 取出值 out <- X[locMat] proc.time() - st # user system elapsed # 1.05 0.03 1.10 驗證結果：http://imgur.com/QMpBoGh 驗證0位置： all(zeroLocIdx2 == sort(zeroLocIdx)) # TRUE 搭配data.table的做法如下： library(data.table) # 轉成data.table DT <- data.table(X) # 假設有其他欄位 DT[ , `:=`(V9 = sample(1:5, nrow(DT), TRUE), V10 = sample(LETTERS, nrow(DT), TRUE))] # 把上面的程式直接抓下來用 findValue <- function(X){ tmp <- which(X != 0, arr.ind = TRUE) minColLoc <- tapply(tmp[ ,2], tmp[ ,1], min) locMat <- cbind(row = as.integer(names(minColLoc)) , col = minColLoc) zeroLocIdx2 <- setdiff(1:nrow(X), locMat[ , 1]) if (length(zeroLocIdx2) > 0) locMat <- rbind(locMat, cbind(zeroLocIdx2, 1)) locMat <- locMat[order(locMat[ , 1]), ] X[locMat] } st <- proc.time() # 直接把需要的column抓出來利用do.call + cbind組成矩陣丟進去 DT[ , v := findValue(do.call(cbind, .SD)), .SDcols = V1:V8] proc.time() - st # user system elapsed # 1.04 0.04 1.09 # 驗證結果 head(DT, 40) http://imgur.com/NxjaCaH -- R資料整理套件系列文： magrittr #1LhSWhpH (R_Language) https://goo.gl/72l1m9 data.table #1LhW7Tvj (R_Language) https://goo.gl/PZa6Ue dplyr(上.下) #1LhpJCfB,#1Lhw8b-s (R_Language) https://goo.gl/I5xX9b tidyr #1Liqls1R (R_Language) https://goo.gl/i7yzAz pipeR #1NXESRm5 (R_Language) https://goo.gl/zRUISx -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 125.224.109.231 ※ 文章網址: https://www.ptt.cc/bbs/R_Language/M.1503827007.A.D2A.html

推 s3714443: 感恩大大，想問大大為什麼處理這種大量資料有用到apply 08/27 20:49

→ s3714443: 還是可以這麼快呢！甘拜下風 08/27 20:50

我只用到tapply而已，tapply速度是還算快的XDD

推 s3714443: 所以tapply算apply家族中比較快的嗎？而且我覺得只用到 08/27 21:20

→ s3714443: min這種簡單函數函數來跑tapply也是關鍵 08/27 21:20

應該說group by somethin to do something比較難做vectorization 所以用tapply就變成是不得已去使用的情境但是背後其實也是lapply而已不過這裡是有替代方案，例如先把which出來的row,column排序之後利用rle取出第一個出現該row的位置就好簡單實現的程式如下： X <- matrix(c(0,0,2,0,0,0,2,0,0,0,1,1,3,2,0), 5) locMat <- which(X > 0, arr.ind = TRUE) ## 要的是第1,2,4,6列 # row col # [1,] 1 3 # [2,] 2 2 # [3,] 2 3 # [4,] 3 1 # [5,] 3 3 # [6,] 4 3 ## 利用order把row根col排序 locMat <- locMat[order(locMat[,1], -locMat[,2]), ] # row col # [1,] 1 3 # [2,] 2 3 # [3,] 2 2 # [4,] 3 3 # [5,] 3 1 # [6,] 4 3 locMat[cumsum(rle(locMat[,1])$lengths), ] # row col # [1,] 1 3 # [2,] 2 2 # [3,] 3 1 # [4,] 4 3 ※ 編輯: celestialgod (125.224.109.231), 08/27/2017 21:54:54

→ f496328mm: 如果用 apply 家族的話開平行會不會好一點?? 08/28 08:10

→ f496328mm: 像是 snow or parallel 08/28 08:11

→ f496328mm: 單就速度上來看 08/28 08:11

> -------------------------------------------------------------------------- < 作者: swedrf0112 (M) 看板: R_Language 標題: Re: [問題] 矩陣的處理...拜求各位大大時間: Mon Aug 28 10:51:20 2017 看了 c 大的 code ，啟發良多XD 以下修改主要把非 0 的 index, group by row 找最小的 column number, 再與 0 的 row bind 起來。 ## data 來自 c 大的 code DT2 <- data.table(X) DT2[ , `:=`(V9 = sample(1:5, nrow(DT2), TRUE), V10 = sample(LETTERS, nrow(DT2), TRUE))] findValueF2 = function(X){ indm = as.matrix(data.table(which(X!=0, arr.ind = TRUE))[,min(col),by="row"]) ## 每個非0 row 的最左邊 column number out_d1 = data.table(indm[,1],X[indm]) ## 指 index 與 value out_d2 = data.table(V1=setdiff(seq_len(nrow(X)),indm[,1]), v2=0) ## 補 0 outd = rbindlist(list(out_d1,out_d2))[order(V1)] ## rbind 起來 by row order return(outd$V2) } st1 <- proc.time() DT[ , v := findValue(do.call(cbind, .SD)), .SDcols = V1:V8] t1 = proc.time() - st1 st2 <- proc.time() DT2[ , v := findValueF2(do.call(cbind, .SD)), .SDcols = V1:V8] t2 = proc.time() - st2 t1 # user system elapsed # 1.16 0.05 1.24 t2 # user system elapsed # 0.28 0.01 0.29 all.equal(DT$v,DT2$v) # [1] TRUE ※ 引述《s3714443 (metalheads)》之銘言： : http://imgur.com/a/1s7Is : 資料大概是長這樣 : 我想要處理的是： : 像第8 row就有兩個非0的數字 : 那我就是取最左的那column 26.57這個數字 : 倒數第2 row 有26.43跟26.57這兩個數字 : 那就是取最左邊column的26.43 : 反正就是先選取特定column(MA10down1~MA10donw9)之中 : 逐row先看有沒有非0的數字，有就取最左column的，沒有就取0 : 然後就是mutate出來新的一行 : 我想不到除了sapply之外的辦法了 : 但是我的資料有500多萬筆 : sapply可能會跑到電腦燒掉ＸＤ : 感恩各位 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 39.12.69.153 ※ 文章網址: https://www.ptt.cc/bbs/R_Language/M.1503888683.A.35C.html > -------------------------------------------------------------------------- < 作者: a78998042a () 看板: R_Language 標題: Re: [問題] 矩陣的處理...拜求各位大大時間: Wed Sep 6 15:10:26 2017 來個基本語法版通常遇到行列數量差異很大的計算時就要設法利用R語言物件的原始結構特性像是如果你有一個矩陣 X 100萬列，20行你需要列加總，你第一個選擇不會是 apply(X, 1, sum) 而是 X[,1] + X[,2] +....+ X[,20] 同理可證，原本的問題 # 資料生成 X = matrix(c(replicate(50, c(rep(0, 6), rnorm(1)))),,8, byrow = TRUE) X[sample(1:dim(X)[1], 10),] = 0 # 生成結果向量 result = rep(NA, dim(X)[1]) # 依行判讀 for(i in 1:m) result[is.na(result) & X[,i]!=0] = X[is.na(result) & X[,i]!=0, i] result[is.na(result)] = 0 沒驗算，應該是對的吧..... XD 不知道跟data.table哪個快，晚點再比一下 ※ 引述《s3714443 (metalheads)》之銘言： : http://imgur.com/a/1s7Is : 資料大概是長這樣 : 我想要處理的是： : 像第8 row就有兩個非0的數字 : 那我就是取最左的那column 26.57這個數字 : 倒數第2 row 有26.43跟26.57這兩個數字 : 那就是取最左邊column的26.43 : 反正就是先選取特定column(MA10down1~MA10donw9)之中 : 逐row先看有沒有非0的數字，有就取最左column的，沒有就取0 : 然後就是mutate出來新的一行 : 我想不到除了sapply之外的辦法了 : 但是我的資料有500多萬筆 : sapply可能會跑到電腦燒掉ＸＤ : 感恩各位 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 115.82.225.9 ※ 文章網址: https://www.ptt.cc/bbs/R_Language/M.1504681836.A.C60.html

→ andrew43: 如果只是加總的話，rowSums還會比一個一個加再快一倍。 09/06 19:40