[問題] 兩兩比較運算

作者pk790127 (<>)

看板R_Language

標題[問題] 兩兩比較運算

時間Wed Aug 30 14:09:03 2017

[問題類型]: 程式諮詢(我想用R 做某件事情，但是我不知道要怎麼用R 寫出來) 不曉得標題這樣下對不對,我想要計算多比不等長的資料(存在list) 舉例:共四筆資料,我想要運算1 vs 2,3,4 ; 2 vs 3,4 ; 3 vs 4 (vs:比較或是運算,並且重覆的不算) 效能諮詢(我想讓R 跑更快) 我已經有使用多層for loop將上述描述實作完畢,但是迴圈多層,運算效能非常差... [軟體熟悉度]: 使用者(已經有用R 做過不少作品) 算是有學了一陣子,但感覺程式邏輯還是很差 [問題敘述]: 如上述,我要運算多筆資料,且作兩兩比較,目的是將計算的結果使用矩陣表示舉例:共四筆資料,1,2,3,4 想要兩兩比較,並以矩陣方式表示 (如下圖) 1 2 3 2 1vs2 3 1vs3 2vs3 4 1vs4 2vs4 3vs4 [程式範例]: 我直接貼程式碼,並以註解的方式解釋實際上我要做的是修改DTW這個套件,並已經將裡面的內容改成我要的運算方式 sample_list<- list(1,2,3,4) # 有幾筆資料就設定list放幾筆的資料 tmp1 <-list() i <-1 for(i in 1:3){ tmp <- lapply(sample_list, function(x) x+i) tmp1[[i]] <- unlist(tmp) tmp1[[i]][which(tmp1[[i]]>4)] <- NA } # for 1 到 3(4筆資料-1自己),逐步隨著i值相加,最後將大於4的設為NA tmp1 <-lapply(tmp1, function(x) x[!is.na(x)]) # 把NA 刪掉 tmp_vector<-vector() for (i in 1:3){ for(k in 1:length(unlist(tmp1[i]))){ for(j in unlist(tmp1[i])[k]){ kai<-kai_dtw(x=unlist(data.list[i]) ,y=unlist(data.list[j]), g=0, step.pattern = symmetric1) tmp<- kai$distance tmp_vector <- c(tmp_vector,tmp) } } } # 多層迴圈,達到我要兩兩比較的意境,當中的kai_dtw是我修改演算法的函式它對應的x與y一定要unlist,後面就是將其取distance存在vector中 tmp_vector1 <- matrix(nrow = 4,ncol = 4) tmp_vector1 <- as.dist(tmp_vector1) tmp_vector1[1:6] <- tmp_vector # 創一個空的矩陣(tmp_vector1)m,並轉算距離矩陣的形式,將前述得到的vector 填入,得到我要的結果 [關鍵字]: dtw , 距離矩陣 ,兩兩比較以上就是我的問題敘述,不曉得有沒有表達清楚基本上就是多層迴圈太慢了,我也正在嘗試使用lapply家族進行運算謝謝~~ -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 140.116.86.113 ※ 文章網址: https://www.ptt.cc/bbs/R_Language/M.1504073346.A.4C9.html ※ 編輯: pk790127 (140.116.86.113), 08/30/2017 14:20:04 ※ 編輯: pk790127 (140.116.86.113), 08/30/2017 14:21:59

→ andrew43: 我覺得瓶頸應該是你的演算法不夠快，倒不是填值的loop 08/30 14:27

→ celestialgod: preallocation 08/30 20:10

→ celestialgod: 還有你有必要先搞動[跟[[.... 08/30 20:10

→ celestialgod: 懂 08/30 20:10

→ celestialgod: kai_dtw這個函數怎麼實做講出來比較快 08/30 20:11

→ celestialgod: 這個函數可能是最大的瓶頸 08/30 20:11

> -------------------------------------------------------------------------- < 作者: pk790127 (<>) 看板: R_Language 標題: Re: [問題] 兩兩比較運算時間: Fri Sep 1 14:40:22 2017 ※ 引述《pk790127 (<>)》之銘言： : [問題類型]: : [軟體熟悉度]: : 使用者(已經有用R 做過不少作品) : 算是有學了一陣子,但感覺程式邏輯還是很差 : [問題敘述]: : [關鍵字]: dtw , 距離矩陣 ,兩兩比較 : 以上就是我的問題敘述,不曉得有沒有表達清楚 : 基本上就是多層迴圈太慢了,我也正在嘗試使用lapply家族進行運算 : 謝謝~~ 回應自己的問題,板友提出我的問題瓶頸不在於矩陣填值的部份,在於我修改的演算法上實際上,我修改了dtw套件當中的dtw的函式,把權重的概念加進去我測試了同筆資料用於原始dtw函式與我修改後的dtw(kai_dtw)函式去做運算時間的比較果真...差了6秒多,問題在於我修改的函式!! (非常感謝兩位版友) dtw的程式碼如下,我儘截錄我修改的部份,只有增加一個矩陣並做相乘 lm <- NULL if (is.null(y)) { if (!is.matrix(x)) stop("Single argument requires a global cost matrix") lm <- x } else if (is.character(dist.method)) { x <- as.matrix(x) y <- as.matrix(y) lm <- proxy::dist(x, y, method = dist.method) #lm x,y 距離矩陣 lm.v<- as.vector(lm) #轉成vector# weight<-vector() #weight function# for(i in lm.v){ tmp<-logisticWeight(i,median(lm.v),g) weight<-c(weight,tmp) } lm.v_weight <- lm.v*weight #相乘# lm<-matrix(lm.v_weight ,length(x),length(y)) #轉回矩陣# } else if (is.function(dist.method)) { stop("Unimplemented") } . . . 紅色表示我新增的部份,原始程式碼下面還有很多,但我直接省略在原始function中填入x與y目的是要計算距離矩陣lm 我先將它轉成vector的形式,並且利用logisticWeight函式(自己寫的公式) 並搭配for迴圈逐一的給予Weight(vector的形式),再將lm.v與weight相乘最後再轉成適當大小矩陣。簡單來說,原先是矩陣,我運算完(乘上weight)後轉回矩陣,讓它做DTW的運算 logisticWeight函式內容,僅是一般的S形函數 logisticWeight <- function(i,mc,g){ 1 / (1 + exp(-g * (i - mc ))) } 我想我應該要優化它賦與權重與相乘的動作,才能達到我降低運算時間的需求謝謝~ 小試了一下,將for loop改成用apply家族,大大改善運算效率 (應該沒有錯吧!?) weight<-vector() #weight function# for(i in lm.v){ tmp<-logisticWeight(i,median(lm.v),0.05) weight<-c(weight,tm) } 改成 tmp<-sapply(1,function(x){logisticWeight(lm.v,median(lm.v),0.05)}) weight<- as.vector(tmp) -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 140.116.86.113 ※ 文章網址: https://www.ptt.cc/bbs/R_Language/M.1504248024.A.A0B.html ※ 編輯: pk790127 (140.116.86.113), 09/01/2017 16:35:02

→ pk790127: 好像在自問自答...找機會把preallocation研究一下 09/01 18:00

> -------------------------------------------------------------------------- < 作者: celestialgod (天) 看板: R_Language 標題: Re: [問題] 兩兩比較運算時間: Fri Sep 1 19:15:58 2017 ※ 引述《pk790127 (<>)》之銘言： : ※ 引述《pk790127 (<>)》之銘言： : : [問題類型]: : : [軟體熟悉度]: : : 使用者(已經有用R 做過不少作品) : : 算是有學了一陣子,但感覺程式邏輯還是很差 : : [問題敘述]: : : [關鍵字]: dtw , 距離矩陣 ,兩兩比較 : : 以上就是我的問題敘述,不曉得有沒有表達清楚 : : 基本上就是多層迴圈太慢了,我也正在嘗試使用lapply家族進行運算 : : 謝謝~~ : 回應自己的問題,板友提出我的問題瓶頸不在於矩陣填值的部份,在於我修改的演算法上 : 實際上,我修改了dtw套件當中的dtw的函式,把權重的概念加進去 : 我測試了同筆資料用於原始dtw函式與我修改後的dtw(kai_dtw)函式去做運算時間的比較 : 果真...差了6秒多,問題在於我修改的函式!! (非常感謝兩位版友) : dtw的程式碼如下,我儘截錄我修改的部份,只有增加一個矩陣並做相乘 : lm <- NULL : if (is.null(y)) { : if (!is.matrix(x)) : stop("Single argument requires a global cost matrix") : lm <- x : } : else if (is.character(dist.method)) { : x <- as.matrix(x) : y <- as.matrix(y) : lm <- proxy::dist(x, y, method = dist.method) #lm x,y 距離矩陣 : lm.v<- as.vector(lm) #轉成vector# : weight<-vector() #weight function# : for(i in lm.v){ : tmp<-logisticWeight(i,median(lm.v),g) : weight<-c(weight,tmp) : } : lm.v_weight <- lm.v*weight #相乘# : lm<-matrix(lm.v_weight ,length(x),length(y)) #轉回矩陣# : } : else if (is.function(dist.method)) { : stop("Unimplemented") : } : . : . : . : 紅色表示我新增的部份,原始程式碼下面還有很多,但我直接省略 : 在原始function中填入x與y目的是要計算距離矩陣lm : 我先將它轉成vector的形式,並且利用logisticWeight函式(自己寫的公式) : 並搭配for迴圈逐一的給予Weight(vector的形式),再將lm.v與weight相乘 : 最後再轉成適當大小矩陣。 : 簡單來說,原先是矩陣,我運算完(乘上weight)後轉回矩陣,讓它做DTW的運算 : logisticWeight函式內容,僅是一般的S形函數 : logisticWeight <- function(i,mc,g){ : 1 / (1 + exp(-g * (i - mc ))) : } : 我想我應該要優化它賦與權重與相乘的動作,才能達到我降低運算時間的需求 : 謝謝~ : 小試了一下,將for loop改成用apply家族,大大改善運算效率 : (應該沒有錯吧!?) : weight<-vector() #weight function# : for(i in lm.v){ : tmp<-logisticWeight(i,median(lm.v),0.05) : weight<-c(weight,tm) : } : 改成 : tmp<-sapply(1,function(x){logisticWeight(lm.v,median(lm.v),0.05)}) : weight<- as.vector(tmp) 其實可以直接改成 lm.v<- as.vector(lm) lm.v_weight <- sapply(seq_along(lm.v), function(i){ logisticWeight(i, median(lm.v), g) }) lm.v_weight <- lm.v*weight ... 快就快在sapply會預先配置輸出的vector大小不然其實weight先給他輸出長度，在用迴圈，速度是一樣的 (詳細可以在板上/preallocation可以找到我的文章) 至於你之前的code可以直接這樣改： library(dtw) library(Matrix) # 產生資料 x <- replicate(10, rnorm(sample(6:10, 1)), simplify = FALSE) # 直接產生出來要比較的i, j位置，然後用apply餵進去 out <- apply(subset(expand.grid(seq_along(x), seq_along(x)), Var1 > Var2), 1, function(v){ c(v, dtw(x[[v[1]]], x[[v[2]]])$distance) }) # 把out轉成距離矩陣 output <- as.dist(sparseMatrix(out[1, ], out[2, ], x = out[3, ], dims = rep(length(x), 2))) 這樣就會很快了(攤手 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 36.235.40.154 ※ 文章網址: https://www.ptt.cc/bbs/R_Language/M.1504264562.A.98C.html ※ 編輯: celestialgod (36.235.40.154), 09/01/2017 19:18:16

推 pk790127: 感謝，上篇文我把for轉成apply後就從6秒進步到0.01秒了 09/01 21:27

→ pk790127: （測試資料），會在嘗試本篇的寫法 09/01 21:27