[問題] 以時間間隔為條件，抽取資料

作者anakinyen (我在台北天氣晴)

看板R_Language

標題[問題] 以時間間隔為條件，抽取資料

時間Mon Feb 6 17:36:29 2017

[問題類型]: 程式諮詢(我想用R 做某件事情，但是我不知道要怎麼用R 寫出來) [軟體熟悉度]: 新手，只會套用package [問題敘述]: 我有一批動物研究的資料資料大致長這個樣子，共有12隻個體一萬多筆個體A 2012/10/11 20:00 實驗資料OOXX 個體A 2012/10/11 23:00 實驗資料OOXX 個體A 2012/10/12 03:00 實驗資料OOXX 個體B 2012/12/11 05:00 實驗資料OOXX 個體B 2012/12/11 11:05 實驗資料OOXX 個體B 2012/12/11 13:00 實驗資料OOXX 個體B 2012/12/11 18:00 實驗資料OOXX 個體B 2012/12/11 20:00 實驗資料OOXX 由於時間間隔過短的話，資料之間可能有相關性因此我現在想要設定6小時的閥值，間隔超過6小時的資料才會保留以上面資料為例 A個體保留第一、第三筆資料 B個體保留第一、第二、第四筆資料我的程度是新手，偶爾會拿一些package來套用請教是否有相關套件或現成code可以用在這個案例非常感謝~~ -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 140.112.84.115 ※ 文章網址: https://www.ptt.cc/bbs/R_Language/M.1486373791.A.069.html

→ celestialgod: 用diff取時間差篩選就好啦~~ 02/06 20:21

→ celestialgod: 我想太簡單了qq 02/06 21:31

→ celestialgod: 不過我記得版上好像有問過類似問題 02/06 21:32

→ celestialgod: 不過我找不到了XDD 02/06 21:53

> -------------------------------------------------------------------------- < 作者: celestialgod (天) 看板: R_Language 標題: Re: [問題] 以時間間隔為條件，抽取資料時間: Mon Feb 6 21:47:56 2017 ※ 引述《anakinyen (我在台北天氣晴)》之銘言： : [問題類型]: : : 程式諮詢(我想用R 做某件事情，但是我不知道要怎麼用R 寫出來) : : [軟體熟悉度]: : 新手，只會套用package : [問題敘述]: : 我有一批動物研究的資料 : 資料大致長這個樣子，共有12隻個體一萬多筆 : 個體A 2012/10/11 20:00 實驗資料OOXX : 個體A 2012/10/11 23:00 實驗資料OOXX : 個體A 2012/10/12 03:00 實驗資料OOXX : 個體B 2012/12/11 05:00 實驗資料OOXX : 個體B 2012/12/11 11:05 實驗資料OOXX : 個體B 2012/12/11 13:00 實驗資料OOXX : 個體B 2012/12/11 18:00 實驗資料OOXX : 個體B 2012/12/11 20:00 實驗資料OOXX : 由於時間間隔過短的話，資料之間可能有相關性 : 因此我現在想要設定6小時的閥值，間隔超過6小時的資料才會保留 : 以上面資料為例 : A個體保留第一、第三筆資料 : B個體保留第一、第二、第四筆資料 : 我的程度是新手，偶爾會拿一些package來套用 : 請教是否有相關套件或現成code可以用在這個案例 : 非常感謝~~ 我用while + data.table做，若用data.frame會複製很多次，效率會不彰 library(data.table) # 產生資料 numObs <- 50 numInd <- 5 DT <- data.table(ind = paste0("A", sample(numInd, numObs, TRUE)), time = strptime("2012/12/11", "%Y/%m/%d") + sample(86400, numObs, TRUE), obs = rnorm(numObs)) # 排序 setorder(DT, ind, time, obs) # 移除掉時間差小於六小時的 k <- 1 while ( TRUE ) { # 計算時間差，以小時表示 DT[ , diffTime := difftime(time, time[min(k, .N)], units="hours"), by = ind] # 留下自己那一組 set(DT, which(DT$diffTime == 0), which(names(DT) == "diffTime"), 1e6) # 留下時間差超過六小時的 DT <- DT[abs(diffTime) > 6, ] # 下一組 k <- k + 1 # 如果k大於某組的觀測值數目就跳離迴圈 if (k > max(DT[ , .(numObsGroup = .N), by = ind]$numObsGroup)) break } DT[ , diffTime := NULL] 五萬筆觀測值，一千個個體，耗時0.23秒 (平均一個個體50個觀測值) 五十萬筆觀測值，一千個個體，耗時0.39秒 (平均一個個體500個觀測值) 我覺得這個速度應該可以接受不過我的區間只有24小時，所以可能都很快就篩選完了有人可以試試看更長時間的表現有問題或任何人有更好解法，歡迎提供，感謝 Note: 間隔一百天，五十萬筆觀測值，一千個個體，耗時18.33秒 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 36.234.179.110 ※ 文章網址: https://www.ptt.cc/bbs/R_Language/M.1486388879.A.9C1.html ※ 編輯: celestialgod (36.234.179.110), 02/06/2017 22:00:07 > -------------------------------------------------------------------------- < 作者: f496328mm (為什麼會流淚) 看板: R_Language 標題: Re: [問題] 以時間間隔為條件，抽取資料時間: Tue Feb 7 00:47:00 2017 ※ 引述《anakinyen (我在台北天氣晴)》之銘言： : [問題類型]: : : 程式諮詢(我想用R 做某件事情，但是我不知道要怎麼用R 寫出來) : : [軟體熟悉度]: : 新手，只會套用package : [問題敘述]: : 我有一批動物研究的資料 : 資料大致長這個樣子，共有12隻個體一萬多筆 : 個體A 2012/10/11 20:00 實驗資料OOXX : 個體A 2012/10/11 23:00 實驗資料OOXX : 個體A 2012/10/12 03:00 實驗資料OOXX : 個體B 2012/12/11 05:00 實驗資料OOXX : 個體B 2012/12/11 11:05 實驗資料OOXX : 個體B 2012/12/11 13:00 實驗資料OOXX : 個體B 2012/12/11 18:00 實驗資料OOXX : 個體B 2012/12/11 20:00 實驗資料OOXX : 由於時間間隔過短的話，資料之間可能有相關性 : 因此我現在想要設定6小時的閥值，間隔超過6小時的資料才會保留 : 以上面資料為例 : A個體保留第一、第三筆資料 : B個體保留第一、第二、第四筆資料 : 我的程度是新手，偶爾會拿一些package來套用 : 請教是否有相關套件或現成code可以用在這個案例 : 非常感謝~~ 借用 celestialgod 大大的函數去生data 我的想法是新生成一個變數 interval , 當作時間間隔 , 再去篩選 >6 的 library(data.table) library(dplyr) #生data 3天 numObs <- 10 numInd <- 3 data1 <- data.table(ind = ( sample(numInd, numObs, TRUE)), time = strptime("2012/12/10", "%Y/%m/%d") + sample(86400, numObs, TRUE), obs = rnorm(numObs)) data2 <- data.table(ind = ( sample(numInd, numObs, TRUE)), time = strptime("2012/12/11", "%Y/%m/%d") + sample(86400, numObs, TRUE), obs = rnorm(numObs)) data3 <- data.table(ind = ( sample(numInd, numObs, TRUE)), time = strptime("2012/12/12", "%Y/%m/%d") + sample(86400, numObs, TRUE), obs = rnorm(numObs)) #合併 & 排序 data = rbind(data1,data2,data3) %>% arrange(ind,time) #計算時間差 data$interval = c( 0 , difftime(data$time[ 2:length(data$time) ] , data$time[ 1:( length(data$time)-1 ) ] , units="hours" ) ) #篩選時間差 >6 的 x = data %>% filter( . , interval>6 ) #------------------------------------------------------ 我並沒有處理 ind: 1跳到2時必須重新計算時間間隔由於我按照 ind & time 排序 2的第一個interval會是負的並不影響我們篩選 interval>6 #------------------------------------------------------ 150萬筆 user system elapsed 0.27 0.07 0.33 150萬筆我是用 min>6 去篩選因為用hour會抓不到東西畢竟24小時間隔內生太多data 會無法出現間隔 >6 hour的情況 #------------------------------------------------ 如果有bug歡迎討論 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 42.66.10.146 ※ 文章網址: https://www.ptt.cc/bbs/R_Language/M.1486399622.A.7DD.html ※ 編輯: f496328mm (42.66.10.146), 02/07/2017 00:57:29 > -------------------------------------------------------------------------- < 作者: anakinyen (我在台北天氣晴) 看板: R_Language 標題: Re: [問題] 以時間間隔為條件，抽取資料時間: Wed Feb 8 13:07:04 2017 遇到一個可能是很新手的問題跳出迴圈指令跑完後 + break + } Error in as.POSIXct.default(time1) : do not know how to convert 'time1' to class “POSIXct” > sambar[ , diffTime := NULL] Warning message: In `[.data.table`(sambar, , `:=`(diffTime, NULL)) : Adding new column 'diffTime' then assigning NULL (deleting it). 我猜是因為difftime預設的處理資料格式是 hh:mm，沒有把日期考慮進去但我試了半天都沒改成功也不太確定我的資料檔日期格式是否正確目前格式長這樣 2012/11/1 6:04，不知道1號是不是該改成01，6點該改成06 ? 再麻煩大大們幫忙了，感謝 ※ 引述《celestialgod (天)》之銘言： : ※ 引述《anakinyen (我在台北天氣晴)》之銘言： : : [問題類型]: : : 程式諮詢(我想用R 做某件事情，但是我不知道要怎麼用R 寫出來) : : [軟體熟悉度]: : : 新手，只會套用package : : [問題敘述]: : : 我有一批動物研究的資料 : : 資料大致長這個樣子，共有12隻個體一萬多筆 : : 個體A 2012/10/11 20:00 實驗資料OOXX : : 個體A 2012/10/11 23:00 實驗資料OOXX : : 個體A 2012/10/12 03:00 實驗資料OOXX : : 個體B 2012/12/11 05:00 實驗資料OOXX : : 個體B 2012/12/11 11:05 實驗資料OOXX : : 個體B 2012/12/11 13:00 實驗資料OOXX : : 個體B 2012/12/11 18:00 實驗資料OOXX : : 個體B 2012/12/11 20:00 實驗資料OOXX : : 由於時間間隔過短的話，資料之間可能有相關性 : : 因此我現在想要設定6小時的閥值，間隔超過6小時的資料才會保留 : : 以上面資料為例 : : A個體保留第一、第三筆資料 : : B個體保留第一、第二、第四筆資料 : : 我的程度是新手，偶爾會拿一些package來套用 : : 請教是否有相關套件或現成code可以用在這個案例 : : 非常感謝~~ : 我用while + data.table做，若用data.frame會複製很多次，效率會不彰 : library(data.table) : # 產生資料 : numObs <- 50 : numInd <- 5 : DT <- data.table(ind = paste0("A", sample(numInd, numObs, TRUE)), : time = strptime("2012/12/11", "%Y/%m/%d") + : sample(86400, numObs, TRUE), : obs = rnorm(numObs)) : # 排序 : setorder(DT, ind, time, obs) : # 移除掉時間差小於六小時的 : k <- 1 : while ( TRUE ) { : # 計算時間差，以小時表示 : DT[ , diffTime := difftime(time, time[min(k, .N)], units="hours"), by = ind] : # 留下自己那一組 : set(DT, which(DT$diffTime == 0), which(names(DT) == "diffTime"), 1e6) : # 留下時間差超過六小時的 : DT <- DT[abs(diffTime) > 6, ] : # 下一組 : k <- k + 1 : # 如果k大於某組的觀測值數目就跳離迴圈 : if (k > max(DT[ , .(numObsGroup = .N), by = ind]$numObsGroup)) : break : } : DT[ , diffTime := NULL] : 五萬筆觀測值，一千個個體，耗時0.23秒 (平均一個個體50個觀測值) : 五十萬筆觀測值，一千個個體，耗時0.39秒 (平均一個個體500個觀測值) : 我覺得這個速度應該可以接受 : 不過我的區間只有24小時，所以可能都很快就篩選完了 : 有人可以試試看更長時間的表現 : 有問題或任何人有更好解法，歡迎提供，感謝 : Note: 間隔一百天，五十萬筆觀測值，一千個個體，耗時18.33秒 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 140.112.84.115 ※ 文章網址: https://www.ptt.cc/bbs/R_Language/M.1486530426.A.8B6.html > -------------------------------------------------------------------------- < 作者: Edster (Edster) 看板: R_Language 標題: Re: [問題] 以時間間隔為條件，抽取資料時間: Wed Feb 8 18:55:39 2017 想了一陣子，覺得還是C版的 abs(difftime)>6 這個最漂亮。我沒做什麼動作，就改成一個老人看得懂的版本 library(magrittr) CriInterval = function(x, criteria){ i=1 names(x) = 1:length(x) while(i <= length(x)){ x = x[x[length(x)>i]-x[i]>criteria] i=i+1 } return(as.integer(names(x))) } TS = seq(ISOdatetime(2005,02,08,18,20,00), ISOdatetime(2017,02,08,18,20,00), "min") system.time( ci <- lapply(1:500, function(i) CriInterval(TS %>% sample(1e4) %>% sort, criteria=6*60*60))) ## speed test user system elapsed 29.77 0.19 30.11 TS_sampled = TS[ci[[1]]] 其實也沒有比較慢，我放了 500 * 10000 筆資料 ※ 引述《celestialgod (天)》之銘言： : ※ 引述《anakinyen (我在台北天氣晴)》之銘言： : : [問題類型]: : : 程式諮詢(我想用R 做某件事情，但是我不知道要怎麼用R 寫出來) : : [軟體熟悉度]: : : 新手，只會套用package : : [問題敘述]: : : 我有一批動物研究的資料 : : 資料大致長這個樣子，共有12隻個體一萬多筆 : : 個體A 2012/10/11 20:00 實驗資料OOXX : : 個體A 2012/10/11 23:00 實驗資料OOXX : : 個體A 2012/10/12 03:00 實驗資料OOXX : : 個體B 2012/12/11 05:00 實驗資料OOXX : : 個體B 2012/12/11 11:05 實驗資料OOXX : : 個體B 2012/12/11 13:00 實驗資料OOXX : : 個體B 2012/12/11 18:00 實驗資料OOXX : : 個體B 2012/12/11 20:00 實驗資料OOXX : : 由於時間間隔過短的話，資料之間可能有相關性 : : 因此我現在想要設定6小時的閥值，間隔超過6小時的資料才會保留 : : 以上面資料為例 : : A個體保留第一、第三筆資料 : : B個體保留第一、第二、第四筆資料 : : 我的程度是新手，偶爾會拿一些package來套用 : : 請教是否有相關套件或現成code可以用在這個案例 : : 非常感謝~~ : 我用while + data.table做，若用data.frame會複製很多次，效率會不彰 : library(data.table) : # 產生資料 : numObs <- 50 : numInd <- 5 : DT <- data.table(ind = paste0("A", sample(numInd, numObs, TRUE)), : time = strptime("2012/12/11", "%Y/%m/%d") + : sample(86400, numObs, TRUE), : obs = rnorm(numObs)) : # 排序 : setorder(DT, ind, time, obs) : # 移除掉時間差小於六小時的 : k <- 1 : while ( TRUE ) { : # 計算時間差，以小時表示 : DT[ , diffTime := difftime(time, time[min(k, .N)], units="hours"), by = ind] : # 留下自己那一組 : set(DT, which(DT$diffTime == 0), which(names(DT) == "diffTime"), 1e6) : # 留下時間差超過六小時的 : DT <- DT[abs(diffTime) > 6, ] : # 下一組 : k <- k + 1 : # 如果k大於某組的觀測值數目就跳離迴圈 : if (k > max(DT[ , .(numObsGroup = .N), by = ind]$numObsGroup)) : break : } : DT[ , diffTime := NULL] : 五萬筆觀測值，一千個個體，耗時0.23秒 (平均一個個體50個觀測值) : 五十萬筆觀測值，一千個個體，耗時0.39秒 (平均一個個體500個觀測值) : 我覺得這個速度應該可以接受 : 不過我的區間只有24小時，所以可能都很快就篩選完了 : 有人可以試試看更長時間的表現 : 有問題或任何人有更好解法，歡迎提供，感謝 : Note: 間隔一百天，五十萬筆觀測值，一千個個體，耗時18.33秒 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 140.112.4.209 ※ 文章網址: https://www.ptt.cc/bbs/R_Language/M.1486551342.A.2DB.html ※ 編輯: Edster (140.112.4.209), 02/08/2017 19:07:23

→ celestialgod: 這樣的壞處是每一個個體都要跑一個CriInterval? 02/08 19:41

→ celestialgod: 如果我個體數超多，應該會超久QQ 02/08 19:41

→ anakinyen: 問題已解決，沒用到這個方法，還是多謝了 02/08 23:47

※ 編輯: Edster (140.112.64.48), 02/09/2017 17:38:43 > -------------------------------------------------------------------------- < 作者: celestialgod (天) 看板: R_Language 標題: Re: [問題] 以時間間隔為條件，抽取資料時間: Wed Feb 8 19:39:12 2017 ※ 引述《anakinyen (我在台北天氣晴)》之銘言： : 遇到一個可能是很新手的問題 : 跳出迴圈指令跑完後 : + break : + } : Error in as.POSIXct.default(time1) : : do not know how to convert 'time1' to class “POSIXct” 這問題是你的time1不是時間格式，是character造成的 : > sambar[ , diffTime := NULL] : Warning message: : In `[.data.table`(sambar, , `:=`(diffTime, NULL)) : : Adding new column 'diffTime' then assigning NULL (deleting it). 這個也同理 : 我猜是因為difftime預設的處理資料格式是 hh:mm，沒有把日期考慮進去這個猜測不對，difftime吃的是POSIXct 或是 POSIXlt class的東西你在用read.csv讀入資料的時候，你那個時間格式不會被正確解讀成那兩個class 所以只會被當成字串處理，因此我下面給你一段程式去把你的時間格式轉成POSIXct : 但我試了半天都沒改成功 : 也不太確定我的資料檔日期格式是否正確 : 目前格式長這樣 2012/11/1 6:04，不知道1號是不是該改成01，6點該改成06 ? : 再麻煩大大們幫忙了，感謝資料讀入後，請用 library(data.table) sambar <- read.csv(...) setDT(sambar) sambar[ , time1 := as.POSIXct(time1, format = "%Y/%m/%d %H:%M")] # time1是你的時間變數 : ※ 引述《celestialgod (天)》之銘言： : : 我用while + data.table做，若用data.frame會複製很多次，效率會不彰 : : library(data.table) : : # 產生資料 : : numObs <- 50 : : numInd <- 5 : : DT <- data.table(ind = paste0("A", sample(numInd, numObs, TRUE)), : : time = strptime("2012/12/11", "%Y/%m/%d") + : : sample(86400, numObs, TRUE), : : obs = rnorm(numObs)) : : # 排序 : : setorder(DT, ind, time, obs) : : # 移除掉時間差小於六小時的 : : k <- 1 : : while ( TRUE ) { : : # 計算時間差，以小時表示 : : DT[ , diffTime := difftime(time, time[min(k, .N)], units="hours"), by = ind] : : # 留下自己那一組 : : set(DT, which(DT$diffTime == 0), which(names(DT) == "diffTime"), 1e6) : : # 留下時間差超過六小時的 : : DT <- DT[abs(diffTime) > 6, ] : : # 下一組 : : k <- k + 1 : : # 如果k大於某組的觀測值數目就跳離迴圈 : : if (k > max(DT[ , .(numObsGroup = .N), by = ind]$numObsGroup)) : : break : : } : : DT[ , diffTime := NULL] : : 五萬筆觀測值，一千個個體，耗時0.23秒 (平均一個個體50個觀測值) : : 五十萬筆觀測值，一千個個體，耗時0.39秒 (平均一個個體500個觀測值) : : 我覺得這個速度應該可以接受 : : 不過我的區間只有24小時，所以可能都很快就篩選完了 : : 有人可以試試看更長時間的表現 : : 有問題或任何人有更好解法，歡迎提供，感謝 : : Note: 間隔一百天，五十萬筆觀測值，一千個個體，耗時18.33秒 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 111.246.24.51 ※ 文章網址: https://www.ptt.cc/bbs/R_Language/M.1486553955.A.05A.html

推 anakinyen: 已加入新的這行指令，但最後還是出現相同的錯誤訊息@@ 02/08 23:13

str(sambar) 看一下結果是什麼

推 anakinyen: $ Time: POSIXct, format: "2009-12-05 20:00:00" "20 02/08 23:28

一樣的錯誤是這一個嗎？ Error in as.POSIXct.default(time1) 還是In `[.data.table`(sambar, , `:=`(diffTime, NULL)) : Adding new column 'diffTime' then assigning NULL (deleting it). 不管是哪個，記得要把下面這段改成你的時間變數名稱 DT[ , diffTime := difftime(Time, Time[min(k, .N)], units="hours"), by = ind] 如果改過還是有問題，可能要把你資料給我看一下

推 anakinyen: 兩個錯誤都還是存在，不過把下面的時間變數修正後 02/08 23:43

→ anakinyen: 兩個錯誤都不見了。 02/08 23:45

→ anakinyen: 原來就卡在兩個t的大小寫。以後得要好好跟R培養感情 02/08 23:46

→ anakinyen: 非常感謝您的幫忙!!! 02/08 23:47

搞定就好 ※ 編輯: celestialgod (111.246.24.51), 02/09/2017 00:26:36 > -------------------------------------------------------------------------- < 作者: celestialgod (天) 看板: R_Language 標題: Re: [問題] 以時間間隔為條件，抽取資料時間: Thu Feb 9 20:04:53 2017 ※ 引述《Edster (Edster)》之銘言： : 想了一陣子，覺得還是C版的 abs(difftime)>6 這個最漂亮。 : 我沒做什麼動作，就改成一個老人看得懂的版本 : library(magrittr) : CriInterval = function(x, criteria){ : i=1 : names(x) = 1:length(x) : while(i <= length(x)){ : x = x[x[length(x)>i]-x[i]>criteria] : i=i+1 : } : return(as.integer(names(x))) : } : TS = seq(ISOdatetime(2005,02,08,18,20,00), : ISOdatetime(2017,02,08,18,20,00), "min") : system.time( : ci <- lapply(1:500, function(i) CriInterval(TS %>% sample(1e4) : %>% sort, criteria=6*60*60))) : ## speed test : user system elapsed : 29.77 0.19 30.11 : TS_sampled = TS[ci[[1]]] : 其實也沒有比較慢，我放了 500 * 10000 筆資料 library(magrittr) TS <- seq(ISOdatetime(2005,02,08,18,20,00), ISOdatetime(2017,02,08,18,20,00), "min") (x <- sort(sample(TS, 1e1, TRUE))) # [1] "2007-01-19 13:35:00 CST" "2008-09-03 01:13:00 CST" # [3] "2009-02-28 01:16:00 CST" "2010-07-28 11:02:00 CST" # [5] "2011-03-23 05:31:00 CST" "2011-12-03 10:35:00 CST" # [7] "2013-03-17 12:21:00 CST" "2013-11-09 19:40:00 CST" # [9] "2015-03-31 16:01:00 CST" "2015-04-11 14:39:00 CST" 如果條件是間隔6小時，照理來說應該要全部都留下，也就是E大的函數回傳的是1:10 CriInterval(x, 6*60*60) # integer(0) 但是回傳是空向量，我細看了一下函數 x = x[x[length(x)>i]-x[i]>criteria] 這行讓我覺得滿疑惑的 length(x) > i 這樣應該全部都會留下，這是第一個問題這樣就會發生自己減自己 = 0的情況出現，然後第一筆就被刪掉了照理來說，第一筆一定會留下... 如果改成1:length(x)或seq_along(x)，則會出現邏輯值判斷只有N-i的情況出現，這樣也是有問題的這裡可能要再細想一下怎麼改才對第二個問題是時間減法，單位不會一定是秒 Ex: ISOdatetime(2005,02,08,18,20,00) - ISOdatetime(2005,02,07,11,20,00) # Time difference of 1.291667 days ISOdatetime(2005,02,08,18,20,00) - ISOdatetime(2005,02,08,11,20,00) # Time difference of 7 hours ISOdatetime(2005,02,08,18,20,00) - ISOdatetime(2005,02,08,18,19,00) # Time difference of 1 mins ISOdatetime(2005,02,08,18,20,00) - ISOdatetime(2005,02,08,18,19,55) # Time difference of 5 secs 這裡真的要很小心處理時間減法，務必要使用difftime + units參數控制 Ex: difftime(ISOdatetime(2005,02,08,18,20,00), ISOdatetime(2005,02,08,18,19,00), units = "secs") # Time difference of 60 secs : ※ 引述《celestialgod (天)》之銘言： : : 我用while + data.table做，若用data.frame會複製很多次，效率會不彰 : : library(data.table) : : # 產生資料 : : numObs <- 50 : : numInd <- 5 : : DT <- data.table(ind = paste0("A", sample(numInd, numObs, TRUE)), : : time = strptime("2012/12/11", "%Y/%m/%d") + : : sample(86400, numObs, TRUE), : : obs = rnorm(numObs)) : : # 排序 : : setorder(DT, ind, time, obs) : : # 移除掉時間差小於六小時的 : : k <- 1 : : while ( TRUE ) { : : # 計算時間差，以小時表示 : : DT[ , diffTime := difftime(time, time[min(k, .N)], units="hours"), by = ind] : : # 留下自己那一組 : : set(DT, which(DT$diffTime == 0), which(names(DT) == "diffTime"), 1e6) : : # 留下時間差超過六小時的 : : DT <- DT[abs(diffTime) > 6, ] : : # 下一組 : : k <- k + 1 : : # 如果k大於某組的觀測值數目就跳離迴圈 : : if (k > max(DT[ , .(numObsGroup = .N), by = ind]$numObsGroup)) : : break : : } : : DT[ , diffTime := NULL] : : 五萬筆觀測值，一千個個體，耗時0.23秒 (平均一個個體50個觀測值) : : 五十萬筆觀測值，一千個個體，耗時0.39秒 (平均一個個體500個觀測值) : : 我覺得這個速度應該可以接受 : : 不過我的區間只有24小時，所以可能都很快就篩選完了 : : 有人可以試試看更長時間的表現 : : 有問題或任何人有更好解法，歡迎提供，感謝 : : Note: 間隔一百天，五十萬筆觀測值，一千個個體，耗時18.33秒 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 111.246.24.51 ※ 文章網址: https://www.ptt.cc/bbs/R_Language/M.1486641897.A.7A2.html ※ 編輯: celestialgod (111.246.24.51), 02/09/2017 20:05:23

推 Edster: 改好了，在原文s 02/09 21:49