推 f496328mm: 有id就好辦了,去sample,然後 %in% 就可以抓出來了 06/21 18:06
推 f496328mm: sample(nrow(data)/4,train.amount) 06/21 18:08
→ f496328mm: 上面是取 train 的 id,之後去抓相同的id即可 06/21 18:09
推 f496328mm: data[ subject_id %in% train_id ] 06/21 18:11
感謝回覆!我試做之後好像有點錯誤,可以指正一下嗎>"<
# 解讀為從1728筆中,取出260個數字當作train_id
sample(nrow(mydata)/4, 260)
newdata <- mydata[ "subject_id" %in% "train_id" ]
不太確定%in%的用法,google一直忽略%所以查不到......
所以第二行還不太理解,直接照打後發現如果不加 " " 會出現下述錯誤
Error in match(x, table, nomatch = 0L) : object 'subject_id' not found
沒有error順利跑完後,newdata有1728obs. of 0 variables
請問有哪裡做錯了嗎QAQ
※ 編輯: shirley7483 (111.240.104.195), 06/21/2017 18:35:13
→ obarisk: 我們的google不一樣? 06/21 18:54
→ obarisk: 8&oe=utf-8&gws_rd=cr&ei=RFBKWYHnJ4S20ATg3oz4BQ 06/21 18:54
→ obarisk: 我貼網址的能力有問題 06/21 18:57
→ obarisk: -operator 06/21 18:57
→ obarisk: ?`%in%` 06/21 18:58
抱歉我估狗%in% r,出現一堆XXX in R的資料,原來放前後順序搜尋有差,學到了!
也感謝提醒?`%in%`,原來符號前後面要加`,難怪我一直出現error...
重新理解後做了修正,感覺很接近需求了,只是這次又出現一些問題
train_id <- sample(nrow(mydata)/4,260, replace = FALSE)
length(train_id) #確定真的有取出260個數字做為train_id
mydata$train <- mydata$subject_id %in% train_id #新增欄位放比對後的True/False
traindata <- mydata[mydata$train == TRUE, ] #有train==TRUE那列放到新dataframe
正常來說,traindata應該要有260*4=1040筆
但traindata只有900多筆,而且每次做數量都不同...好困惑啊
再麻煩各位協助了>"<
※ 編輯: shirley7483 (111.240.104.195), 06/21/2017 19:55:27
※ 編輯: shirley7483 (111.240.104.195), 06/21/2017 20:00:48
抱歉!!!
上述程式沒有問題,能夠成功取出1040筆資料
是我原始資料中的編號出錯,改正後已解決
感謝各位的協助,讓我成功可以繼續下一步 m(_ _)m
※ 編輯: shirley7483 (111.240.104.195), 06/21/2017 20:20:07
→ f496328mm: mydata[ "subject_id" %in% "train_id" ] 把引號拿掉 06/21 22:24
→ f496328mm: 如果會有error 那把mydata轉成data.table型態 06/21 22:30
→ shirley7483: 成功!使用data.table好快速啊,馬上筆記起來,感謝~ 06/22 08:33
※ 編輯: shirley7483 (111.240.104.195), 06/22/2017 08:34:06
→ celestialgod: 樓樓上只是少一個,所以才出錯 06/22 20:07
→ f496328mm: 原來不是引號的問題QQ 06/22 20:32
→ celestialgod: data.table可以不用,,但data.frame, matrix一定要 06/22 20:36