Re: [問題] 指定group

作者andrew43 (討厭有好心推文後刪文者)

看板R_Language

標題Re: [問題] 指定group

時間Sun Aug 16 04:58:26 2015

寫得很醜，但邏輯大概就是這樣。裡面用了一些技巧，看懂之後歡迎學起來。這都是內建的 funciton，應該直接用就可以了，但若是巨大資料就會很慢了。 dt <- data.frame( series = c(1,2,3,4,5,6,1,1,2,2,2,2,2), cate = c(2,3,4,2,2,5,1,2,2,3,4,4,4) ) # 各 series 之下 cate 頻率最高的值之對應（若無最高者，之後會出警告）。 # 這一句如果看不懂，請想像成一個迴圈，每跑一次的對象是同一組series， # 並找出頻率最高的 cate 是誰。 tab <- tapply( dt$cate, dt$series, function(x){ rownames(table(x)[order(table(x), decreasing = T)])[1] } ) # 這句只是建一個新的 dt。 dt.new <- data.frame( series = dt$series, cake = rep(NA, nrow(dt)) ) # 利用 dimnames(tab)[[1]] 和 tab[[i]] 來重建 dt.new，總共填 6 次。 # 看不懂的話把 i 用 1 或 2 去代入，再細看每個小部份。 for (i in 1:dim(tab)) { ans <- rep( as.numeric(tab[[i]]), length(dt.new[dt.new$series == dimnames(tab)[[1]][i], ]$cake) ) dt.new[dt.new$series == dimnames(tab)[[1]][i], ]$cake <- ans } ※ 引述《lambking (BB)》之銘言： : [問題類型]: : 程式諮詢(我想用R 做某件事情，但是我不知道要怎麼用R 寫出來) : [軟體熟悉度]: : 入門(寫過其他程式，只是對語法不熟悉) : [問題敘述]: : 想將資料中的某欄位指定為其最常見的group名稱 : 例如 : series cate : [1,] 1 2 : [2,] 2 3 : [3,] 3 4 : [4,] 4 2 : [5,] 5 2 : [6,] 6 5 : [7,] 1 1 : [8,] 1 2 : [9,] 2 2 : [10,] 2 3 : [11,] 2 4 : [12,] 2 4 : [13,] 2 4 : 在series中1出現三次,其cate分別為2,2,1 頻率最高的為2 : 想將所有series為1的族群其cate欄位接指定為4 : 又例如 series中為2的族群其cate 分別為 3,2,3,4,4,4 頻率最高的4 : 想將所有series為2的族群其cate欄位皆指定為4 : 請問除了用for loop外有其他方法嗎? -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 122.117.37.172 ※ 文章網址: https://www.ptt.cc/bbs/R_Language/M.1439672309.A.25A.html ※ 編輯: andrew43 (122.117.37.172), 08/16/2015 05:00:19 ※ 編輯: andrew43 (122.117.37.172), 08/16/2015 05:00:44

推 lambking: 謝謝! 但因為資料量很大, 會在想想看其他方法 08/16 06:00

→ andrew43: 巨大資料的話先看看 #1LhW7Tvj (R_Language) 吧 08/16 06:57

→ celestialgod: 謝謝a大推薦我的文章~~ 08/16 09:02

→ lambking: 謝謝! 08/16 18:19