→ celestialgod: 用diff取時間差篩選就好啦~~ 02/06 20:21
→ celestialgod: 我想太簡單了qq 02/06 21:31
→ celestialgod: 不過我記得版上好像有問過類似問題 02/06 21:32
→ celestialgod: 不過我找不到了XDD 02/06 21:53
> -------------------------------------------------------------------------- <
作者: celestialgod (天) 看板: R_Language
標題: Re: [問題] 以時間間隔為條件,抽取資料
時間: Mon Feb 6 21:47:56 2017
※ 引述《anakinyen (我在台北 天氣晴)》之銘言:
: [問題類型]:
:
: 程式諮詢(我想用R 做某件事情,但是我不知道要怎麼用R 寫出來)
:
: [軟體熟悉度]:
: 新手,只會套用package
: [問題敘述]:
: 我有一批動物研究的資料
: 資料大致長這個樣子,共有12隻個體一萬多筆
: 個體A 2012/10/11 20:00 實驗資料OOXX
: 個體A 2012/10/11 23:00 實驗資料OOXX
: 個體A 2012/10/12 03:00 實驗資料OOXX
: 個體B 2012/12/11 05:00 實驗資料OOXX
: 個體B 2012/12/11 11:05 實驗資料OOXX
: 個體B 2012/12/11 13:00 實驗資料OOXX
: 個體B 2012/12/11 18:00 實驗資料OOXX
: 個體B 2012/12/11 20:00 實驗資料OOXX
: 由於時間間隔過短的話,資料之間可能有相關性
: 因此我現在想要設定6小時的閥值,間隔超過6小時的資料才會保留
: 以上面資料為例
: A個體保留第一、第三筆資料
: B個體保留第一、第二、第四筆資料
: 我的程度是新手,偶爾會拿一些package來套用
: 請教是否有相關套件或現成code可以用在這個案例
: 非常感謝~~
我用while + data.table做,若用data.frame會複製很多次,效率會不彰
library(data.table)
# 產生資料
numObs <- 50
numInd <- 5
DT <- data.table(ind = paste0("A", sample(numInd, numObs, TRUE)),
time = strptime("2012/12/11", "%Y/%m/%d") +
sample(86400, numObs, TRUE),
obs = rnorm(numObs))
# 排序
setorder(DT, ind, time, obs)
# 移除掉時間差小於六小時的
k <- 1
while ( TRUE ) {
# 計算時間差,以小時表示
DT[ , diffTime := difftime(time, time[min(k, .N)], units="hours"), by = ind]
# 留下自己那一組
set(DT, which(DT$diffTime == 0), which(names(DT) == "diffTime"), 1e6)
# 留下時間差超過六小時的
DT <- DT[abs(diffTime) > 6, ]
# 下一組
k <- k + 1
# 如果k大於某組的觀測值數目就跳離迴圈
if (k > max(DT[ , .(numObsGroup = .N), by = ind]$numObsGroup))
break
}
DT[ , diffTime := NULL]
五萬筆觀測值,一千個個體,耗時0.23秒 (平均一個個體50個觀測值)
五十萬筆觀測值,一千個個體,耗時0.39秒 (平均一個個體500個觀測值)
我覺得這個速度應該可以接受
不過我的區間只有24小時,所以可能都很快就篩選完了
有人可以試試看更長時間的表現
有問題或任何人有更好解法,歡迎提供,感謝
Note: 間隔一百天,五十萬筆觀測值,一千個個體,耗時18.33秒
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 36.234.179.110
※ 文章網址: https://www.ptt.cc/bbs/R_Language/M.1486388879.A.9C1.html
※ 編輯: celestialgod (36.234.179.110), 02/06/2017 22:00:07
> -------------------------------------------------------------------------- <
作者: f496328mm (為什麼會流淚) 看板: R_Language
標題: Re: [問題] 以時間間隔為條件,抽取資料
時間: Tue Feb 7 00:47:00 2017
※ 引述《anakinyen (我在台北 天氣晴)》之銘言:
: [問題類型]:
:
: 程式諮詢(我想用R 做某件事情,但是我不知道要怎麼用R 寫出來)
:
: [軟體熟悉度]:
: 新手,只會套用package
: [問題敘述]:
: 我有一批動物研究的資料
: 資料大致長這個樣子,共有12隻個體一萬多筆
: 個體A 2012/10/11 20:00 實驗資料OOXX
: 個體A 2012/10/11 23:00 實驗資料OOXX
: 個體A 2012/10/12 03:00 實驗資料OOXX
: 個體B 2012/12/11 05:00 實驗資料OOXX
: 個體B 2012/12/11 11:05 實驗資料OOXX
: 個體B 2012/12/11 13:00 實驗資料OOXX
: 個體B 2012/12/11 18:00 實驗資料OOXX
: 個體B 2012/12/11 20:00 實驗資料OOXX
: 由於時間間隔過短的話,資料之間可能有相關性
: 因此我現在想要設定6小時的閥值,間隔超過6小時的資料才會保留
: 以上面資料為例
: A個體保留第一、第三筆資料
: B個體保留第一、第二、第四筆資料
: 我的程度是新手,偶爾會拿一些package來套用
: 請教是否有相關套件或現成code可以用在這個案例
: 非常感謝~~
借用 celestialgod 大大的函數去生data
我的想法是 新生成一個變數 interval , 當作時間間隔 , 再去篩選 >6 的
library(data.table)
library(dplyr)
#生data 3天
numObs <- 10
numInd <- 3
data1 <- data.table(ind = ( sample(numInd, numObs, TRUE)),
time = strptime("2012/12/10", "%Y/%m/%d") +
sample(86400, numObs, TRUE),
obs = rnorm(numObs))
data2 <- data.table(ind = ( sample(numInd, numObs, TRUE)),
time = strptime("2012/12/11", "%Y/%m/%d") +
sample(86400, numObs, TRUE),
obs = rnorm(numObs))
data3 <- data.table(ind = ( sample(numInd, numObs, TRUE)),
time = strptime("2012/12/12", "%Y/%m/%d") +
sample(86400, numObs, TRUE),
obs = rnorm(numObs))
#合併 & 排序
data = rbind(data1,data2,data3) %>% arrange(ind,time)
#計算時間差
data$interval = c( 0 ,
difftime(data$time[ 2:length(data$time) ] ,
data$time[ 1:( length(data$time)-1 ) ] , units="hours" )
)
#篩選時間差 >6 的
x = data %>% filter( . , interval>6 )
#------------------------------------------------------
我並沒有處理 ind: 1跳到2時 必須重新計算時間間隔
由於我按照 ind & time 排序
2的第一個interval會是負的
並不影響我們篩選 interval>6
#------------------------------------------------------
150萬筆
user system elapsed
0.27 0.07 0.33
150萬筆我是用 min>6 去篩選
因為用hour會抓不到東西
畢竟24小時間隔內 生太多data
會無法出現間隔 >6 hour的情況
#------------------------------------------------
如果有bug歡迎討論
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 42.66.10.146
※ 文章網址: https://www.ptt.cc/bbs/R_Language/M.1486399622.A.7DD.html
※ 編輯: f496328mm (42.66.10.146), 02/07/2017 00:57:29
> -------------------------------------------------------------------------- <
作者: anakinyen (我在台北 天氣晴) 看板: R_Language
標題: Re: [問題] 以時間間隔為條件,抽取資料
時間: Wed Feb 8 13:07:04 2017
遇到一個可能是很新手的問題
跳出迴圈指令跑完後
+ break
+ }
Error in as.POSIXct.default(time1) :
do not know how to convert 'time1' to class “POSIXct”
> sambar[ , diffTime := NULL]
Warning message:
In `[.data.table`(sambar, , `:=`(diffTime, NULL)) :
Adding new column 'diffTime' then assigning NULL (deleting it).
我猜是因為difftime預設的處理資料格式是 hh:mm,沒有把日期考慮進去
但我試了半天都沒改成功
也不太確定我的資料檔日期格式是否正確
目前格式長這樣 2012/11/1 6:04,不知道1號是不是該改成01,6點該改成06 ?
再麻煩大大們幫忙了,感謝
※ 引述《celestialgod (天)》之銘言:
: ※ 引述《anakinyen (我在台北 天氣晴)》之銘言:
: : [問題類型]:
: : 程式諮詢(我想用R 做某件事情,但是我不知道要怎麼用R 寫出來)
: : [軟體熟悉度]:
: : 新手,只會套用package
: : [問題敘述]:
: : 我有一批動物研究的資料
: : 資料大致長這個樣子,共有12隻個體一萬多筆
: : 個體A 2012/10/11 20:00 實驗資料OOXX
: : 個體A 2012/10/11 23:00 實驗資料OOXX
: : 個體A 2012/10/12 03:00 實驗資料OOXX
: : 個體B 2012/12/11 05:00 實驗資料OOXX
: : 個體B 2012/12/11 11:05 實驗資料OOXX
: : 個體B 2012/12/11 13:00 實驗資料OOXX
: : 個體B 2012/12/11 18:00 實驗資料OOXX
: : 個體B 2012/12/11 20:00 實驗資料OOXX
: : 由於時間間隔過短的話,資料之間可能有相關性
: : 因此我現在想要設定6小時的閥值,間隔超過6小時的資料才會保留
: : 以上面資料為例
: : A個體保留第一、第三筆資料
: : B個體保留第一、第二、第四筆資料
: : 我的程度是新手,偶爾會拿一些package來套用
: : 請教是否有相關套件或現成code可以用在這個案例
: : 非常感謝~~
: 我用while + data.table做,若用data.frame會複製很多次,效率會不彰
: library(data.table)
: # 產生資料
: numObs <- 50
: numInd <- 5
: DT <- data.table(ind = paste0("A", sample(numInd, numObs, TRUE)),
: time = strptime("2012/12/11", "%Y/%m/%d") +
: sample(86400, numObs, TRUE),
: obs = rnorm(numObs))
: # 排序
: setorder(DT, ind, time, obs)
: # 移除掉時間差小於六小時的
: k <- 1
: while ( TRUE ) {
: # 計算時間差,以小時表示
: DT[ , diffTime := difftime(time, time[min(k, .N)], units="hours"), by = ind]
: # 留下自己那一組
: set(DT, which(DT$diffTime == 0), which(names(DT) == "diffTime"), 1e6)
: # 留下時間差超過六小時的
: DT <- DT[abs(diffTime) > 6, ]
: # 下一組
: k <- k + 1
: # 如果k大於某組的觀測值數目就跳離迴圈
: if (k > max(DT[ , .(numObsGroup = .N), by = ind]$numObsGroup))
: break
: }
: DT[ , diffTime := NULL]
: 五萬筆觀測值,一千個個體,耗時0.23秒 (平均一個個體50個觀測值)
: 五十萬筆觀測值,一千個個體,耗時0.39秒 (平均一個個體500個觀測值)
: 我覺得這個速度應該可以接受
: 不過我的區間只有24小時,所以可能都很快就篩選完了
: 有人可以試試看更長時間的表現
: 有問題或任何人有更好解法,歡迎提供,感謝
: Note: 間隔一百天,五十萬筆觀測值,一千個個體,耗時18.33秒
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 140.112.84.115
※ 文章網址: https://www.ptt.cc/bbs/R_Language/M.1486530426.A.8B6.html
> -------------------------------------------------------------------------- <
作者: Edster (Edster) 看板: R_Language
標題: Re: [問題] 以時間間隔為條件,抽取資料
時間: Wed Feb 8 18:55:39 2017
想了一陣子,覺得還是C版的 abs(difftime)>6 這個最漂亮。
我沒做什麼動作,就改成一個老人看得懂的版本
library(magrittr)
CriInterval = function(x, criteria){
i=1
names(x) = 1:length(x)
while(i <= length(x)){
x = x[x[length(x)>i]-x[i]>criteria]
i=i+1
}
return(as.integer(names(x)))
}
TS = seq(ISOdatetime(2005,02,08,18,20,00),
ISOdatetime(2017,02,08,18,20,00), "min")
system.time(
ci <- lapply(1:500, function(i) CriInterval(TS %>% sample(1e4)
%>% sort, criteria=6*60*60)))
## speed test
user system elapsed
29.77 0.19 30.11
TS_sampled = TS[ci[[1]]]
其實也沒有比較慢,我放了 500 * 10000 筆資料
※ 引述《celestialgod (天)》之銘言:
: ※ 引述《anakinyen (我在台北 天氣晴)》之銘言:
: : [問題類型]:
: : 程式諮詢(我想用R 做某件事情,但是我不知道要怎麼用R 寫出來)
: : [軟體熟悉度]:
: : 新手,只會套用package
: : [問題敘述]:
: : 我有一批動物研究的資料
: : 資料大致長這個樣子,共有12隻個體一萬多筆
: : 個體A 2012/10/11 20:00 實驗資料OOXX
: : 個體A 2012/10/11 23:00 實驗資料OOXX
: : 個體A 2012/10/12 03:00 實驗資料OOXX
: : 個體B 2012/12/11 05:00 實驗資料OOXX
: : 個體B 2012/12/11 11:05 實驗資料OOXX
: : 個體B 2012/12/11 13:00 實驗資料OOXX
: : 個體B 2012/12/11 18:00 實驗資料OOXX
: : 個體B 2012/12/11 20:00 實驗資料OOXX
: : 由於時間間隔過短的話,資料之間可能有相關性
: : 因此我現在想要設定6小時的閥值,間隔超過6小時的資料才會保留
: : 以上面資料為例
: : A個體保留第一、第三筆資料
: : B個體保留第一、第二、第四筆資料
: : 我的程度是新手,偶爾會拿一些package來套用
: : 請教是否有相關套件或現成code可以用在這個案例
: : 非常感謝~~
: 我用while + data.table做,若用data.frame會複製很多次,效率會不彰
: library(data.table)
: # 產生資料
: numObs <- 50
: numInd <- 5
: DT <- data.table(ind = paste0("A", sample(numInd, numObs, TRUE)),
: time = strptime("2012/12/11", "%Y/%m/%d") +
: sample(86400, numObs, TRUE),
: obs = rnorm(numObs))
: # 排序
: setorder(DT, ind, time, obs)
: # 移除掉時間差小於六小時的
: k <- 1
: while ( TRUE ) {
: # 計算時間差,以小時表示
: DT[ , diffTime := difftime(time, time[min(k, .N)], units="hours"), by = ind]
: # 留下自己那一組
: set(DT, which(DT$diffTime == 0), which(names(DT) == "diffTime"), 1e6)
: # 留下時間差超過六小時的
: DT <- DT[abs(diffTime) > 6, ]
: # 下一組
: k <- k + 1
: # 如果k大於某組的觀測值數目就跳離迴圈
: if (k > max(DT[ , .(numObsGroup = .N), by = ind]$numObsGroup))
: break
: }
: DT[ , diffTime := NULL]
: 五萬筆觀測值,一千個個體,耗時0.23秒 (平均一個個體50個觀測值)
: 五十萬筆觀測值,一千個個體,耗時0.39秒 (平均一個個體500個觀測值)
: 我覺得這個速度應該可以接受
: 不過我的區間只有24小時,所以可能都很快就篩選完了
: 有人可以試試看更長時間的表現
: 有問題或任何人有更好解法,歡迎提供,感謝
: Note: 間隔一百天,五十萬筆觀測值,一千個個體,耗時18.33秒
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 140.112.4.209
※ 文章網址: https://www.ptt.cc/bbs/R_Language/M.1486551342.A.2DB.html
※ 編輯: Edster (140.112.4.209), 02/08/2017 19:07:23
→ celestialgod: 這樣的壞處是每一個個體都要跑一個CriInterval? 02/08 19:41
→ celestialgod: 如果我個體數超多,應該會超久QQ 02/08 19:41
→ anakinyen: 問題已解決,沒用到這個方法,還是多謝了 02/08 23:47
※ 編輯: Edster (140.112.64.48), 02/09/2017 17:38:43
> -------------------------------------------------------------------------- <
作者: celestialgod (天) 看板: R_Language
標題: Re: [問題] 以時間間隔為條件,抽取資料
時間: Wed Feb 8 19:39:12 2017
※ 引述《anakinyen (我在台北 天氣晴)》之銘言:
: 遇到一個可能是很新手的問題
: 跳出迴圈指令跑完後
: + break
: + }
: Error in as.POSIXct.default(time1) :
: do not know how to convert 'time1' to class “POSIXct”
這問題是你的time1不是時間格式,是character造成的
: > sambar[ , diffTime := NULL]
: Warning message:
: In `[.data.table`(sambar, , `:=`(diffTime, NULL)) :
: Adding new column 'diffTime' then assigning NULL (deleting it).
這個也同理
: 我猜是因為difftime預設的處理資料格式是 hh:mm,沒有把日期考慮進去
這個猜測不對,difftime吃的是POSIXct 或是 POSIXlt class的東西
你在用read.csv讀入資料的時候,你那個時間格式不會被正確解讀成那兩個class
所以只會被當成字串處理,因此我下面給你一段程式去把你的時間格式轉成POSIXct
: 但我試了半天都沒改成功
: 也不太確定我的資料檔日期格式是否正確
: 目前格式長這樣 2012/11/1 6:04,不知道1號是不是該改成01,6點該改成06 ?
: 再麻煩大大們幫忙了,感謝
資料讀入後,請用
library(data.table)
sambar <- read.csv(...)
setDT(sambar)
sambar[ , time1 := as.POSIXct(time1, format = "%Y/%m/%d %H:%M")]
# time1是你的時間變數
: ※ 引述《celestialgod (天)》之銘言:
: : 我用while + data.table做,若用data.frame會複製很多次,效率會不彰
: : library(data.table)
: : # 產生資料
: : numObs <- 50
: : numInd <- 5
: : DT <- data.table(ind = paste0("A", sample(numInd, numObs, TRUE)),
: : time = strptime("2012/12/11", "%Y/%m/%d") +
: : sample(86400, numObs, TRUE),
: : obs = rnorm(numObs))
: : # 排序
: : setorder(DT, ind, time, obs)
: : # 移除掉時間差小於六小時的
: : k <- 1
: : while ( TRUE ) {
: : # 計算時間差,以小時表示
: : DT[ , diffTime := difftime(time, time[min(k, .N)], units="hours"), by = ind]
: : # 留下自己那一組
: : set(DT, which(DT$diffTime == 0), which(names(DT) == "diffTime"), 1e6)
: : # 留下時間差超過六小時的
: : DT <- DT[abs(diffTime) > 6, ]
: : # 下一組
: : k <- k + 1
: : # 如果k大於某組的觀測值數目就跳離迴圈
: : if (k > max(DT[ , .(numObsGroup = .N), by = ind]$numObsGroup))
: : break
: : }
: : DT[ , diffTime := NULL]
: : 五萬筆觀測值,一千個個體,耗時0.23秒 (平均一個個體50個觀測值)
: : 五十萬筆觀測值,一千個個體,耗時0.39秒 (平均一個個體500個觀測值)
: : 我覺得這個速度應該可以接受
: : 不過我的區間只有24小時,所以可能都很快就篩選完了
: : 有人可以試試看更長時間的表現
: : 有問題或任何人有更好解法,歡迎提供,感謝
: : Note: 間隔一百天,五十萬筆觀測值,一千個個體,耗時18.33秒
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 111.246.24.51
※ 文章網址: https://www.ptt.cc/bbs/R_Language/M.1486553955.A.05A.html
推 anakinyen: 已加入新的這行指令,但最後還是出現相同的錯誤訊息@@ 02/08 23:13
str(sambar) 看一下結果是什麼
推 anakinyen: $ Time: POSIXct, format: "2009-12-05 20:00:00" "20 02/08 23:28
一樣的錯誤是這一個嗎? Error in as.POSIXct.default(time1)
還是In `[.data.table`(sambar, , `:=`(diffTime, NULL)) :
Adding new column 'diffTime' then assigning NULL (deleting it).
不管是哪個,記得要把下面這段改成你的時間變數名稱
DT[ , diffTime := difftime(Time, Time[min(k, .N)], units="hours"), by = ind]
如果改過還是有問題,可能要把你資料給我看一下
推 anakinyen: 兩個錯誤都還是存在,不過把下面的時間變數修正後 02/08 23:43
→ anakinyen: 兩個錯誤都不見了。 02/08 23:45
→ anakinyen: 原來就卡在兩個t的大小寫。以後得要好好跟R培養感情 02/08 23:46
→ anakinyen: 非常感謝您的幫忙!!! 02/08 23:47
搞定就好
※ 編輯: celestialgod (111.246.24.51), 02/09/2017 00:26:36
> -------------------------------------------------------------------------- <
作者: celestialgod (天) 看板: R_Language
標題: Re: [問題] 以時間間隔為條件,抽取資料
時間: Thu Feb 9 20:04:53 2017
※ 引述《Edster (Edster)》之銘言:
: 想了一陣子,覺得還是C版的 abs(difftime)>6 這個最漂亮。
: 我沒做什麼動作,就改成一個老人看得懂的版本
: library(magrittr)
: CriInterval = function(x, criteria){
: i=1
: names(x) = 1:length(x)
: while(i <= length(x)){
: x = x[x[length(x)>i]-x[i]>criteria]
: i=i+1
: }
: return(as.integer(names(x)))
: }
: TS = seq(ISOdatetime(2005,02,08,18,20,00),
: ISOdatetime(2017,02,08,18,20,00), "min")
: system.time(
: ci <- lapply(1:500, function(i) CriInterval(TS %>% sample(1e4)
: %>% sort, criteria=6*60*60)))
: ## speed test
: user system elapsed
: 29.77 0.19 30.11
: TS_sampled = TS[ci[[1]]]
: 其實也沒有比較慢,我放了 500 * 10000 筆資料
library(magrittr)
TS <- seq(ISOdatetime(2005,02,08,18,20,00),
ISOdatetime(2017,02,08,18,20,00), "min")
(x <- sort(sample(TS, 1e1, TRUE)))
# [1] "2007-01-19 13:35:00 CST" "2008-09-03 01:13:00 CST"
# [3] "2009-02-28 01:16:00 CST" "2010-07-28 11:02:00 CST"
# [5] "2011-03-23 05:31:00 CST" "2011-12-03 10:35:00 CST"
# [7] "2013-03-17 12:21:00 CST" "2013-11-09 19:40:00 CST"
# [9] "2015-03-31 16:01:00 CST" "2015-04-11 14:39:00 CST"
如果條件是間隔6小時,照理來說應該要全部都留下,也就是E大的函數回傳的是1:10
CriInterval(x, 6*60*60)
# integer(0)
但是回傳是空向量,我細看了一下函數
x = x[x[length(x)>i]-x[i]>criteria]
這行讓我覺得滿疑惑的
length(x) > i 這樣應該全部都會留下,這是第一個問題
這樣就會發生自己減自己 = 0的情況出現,然後第一筆就被刪掉了
照理來說,第一筆一定會留下...
如果改成1:length(x)或seq_along(x),則會出現
邏輯值判斷只有N-i的情況出現,這樣也是有問題的
這裡可能要再細想一下怎麼改才對
第二個問題是時間減法,單位不會一定是秒
Ex:
ISOdatetime(2005,02,08,18,20,00) - ISOdatetime(2005,02,07,11,20,00)
# Time difference of 1.291667 days
ISOdatetime(2005,02,08,18,20,00) - ISOdatetime(2005,02,08,11,20,00)
# Time difference of 7 hours
ISOdatetime(2005,02,08,18,20,00) - ISOdatetime(2005,02,08,18,19,00)
# Time difference of 1 mins
ISOdatetime(2005,02,08,18,20,00) - ISOdatetime(2005,02,08,18,19,55)
# Time difference of 5 secs
這裡真的要很小心處理時間減法,務必要使用difftime + units參數控制
Ex:
difftime(ISOdatetime(2005,02,08,18,20,00),
ISOdatetime(2005,02,08,18,19,00), units = "secs")
# Time difference of 60 secs
: ※ 引述《celestialgod (天)》之銘言:
: : 我用while + data.table做,若用data.frame會複製很多次,效率會不彰
: : library(data.table)
: : # 產生資料
: : numObs <- 50
: : numInd <- 5
: : DT <- data.table(ind = paste0("A", sample(numInd, numObs, TRUE)),
: : time = strptime("2012/12/11", "%Y/%m/%d") +
: : sample(86400, numObs, TRUE),
: : obs = rnorm(numObs))
: : # 排序
: : setorder(DT, ind, time, obs)
: : # 移除掉時間差小於六小時的
: : k <- 1
: : while ( TRUE ) {
: : # 計算時間差,以小時表示
: : DT[ , diffTime := difftime(time, time[min(k, .N)], units="hours"), by = ind]
: : # 留下自己那一組
: : set(DT, which(DT$diffTime == 0), which(names(DT) == "diffTime"), 1e6)
: : # 留下時間差超過六小時的
: : DT <- DT[abs(diffTime) > 6, ]
: : # 下一組
: : k <- k + 1
: : # 如果k大於某組的觀測值數目就跳離迴圈
: : if (k > max(DT[ , .(numObsGroup = .N), by = ind]$numObsGroup))
: : break
: : }
: : DT[ , diffTime := NULL]
: : 五萬筆觀測值,一千個個體,耗時0.23秒 (平均一個個體50個觀測值)
: : 五十萬筆觀測值,一千個個體,耗時0.39秒 (平均一個個體500個觀測值)
: : 我覺得這個速度應該可以接受
: : 不過我的區間只有24小時,所以可能都很快就篩選完了
: : 有人可以試試看更長時間的表現
: : 有問題或任何人有更好解法,歡迎提供,感謝
: : Note: 間隔一百天,五十萬筆觀測值,一千個個體,耗時18.33秒
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 111.246.24.51
※ 文章網址: https://www.ptt.cc/bbs/R_Language/M.1486641897.A.7A2.html
※ 編輯: celestialgod (111.246.24.51), 02/09/2017 20:05:23
推 Edster: 改好了,在原文s 02/09 21:49