看板 R_Language 關於我們 聯絡資訊
寫得很醜,但邏輯大概就是這樣。 裡面用了一些技巧,看懂之後歡迎學起來。 這都是內建的 funciton,應該直接用就可以了,但若是巨大資料就會很慢了。 dt <- data.frame( series = c(1,2,3,4,5,6,1,1,2,2,2,2,2), cate = c(2,3,4,2,2,5,1,2,2,3,4,4,4) ) # 各 series 之下 cate 頻率最高的值之對應(若無最高者,之後會出警告)。 # 這一句如果看不懂,請想像成一個迴圈,每跑一次的對象是同一組series, # 並找出頻率最高的 cate 是誰。 tab <- tapply( dt$cate, dt$series, function(x){ rownames(table(x)[order(table(x), decreasing = T)])[1] } ) # 這句只是建一個新的 dt。 dt.new <- data.frame( series = dt$series, cake = rep(NA, nrow(dt)) ) # 利用 dimnames(tab)[[1]] 和 tab[[i]] 來重建 dt.new,總共填 6 次。 # 看不懂的話把 i 用 1 或 2 去代入,再細看每個小部份。 for (i in 1:dim(tab)) { ans <- rep( as.numeric(tab[[i]]), length(dt.new[dt.new$series == dimnames(tab)[[1]][i], ]$cake) ) dt.new[dt.new$series == dimnames(tab)[[1]][i], ]$cake <- ans } ※ 引述《lambking (BB)》之銘言: : [問題類型]: : 程式諮詢(我想用R 做某件事情,但是我不知道要怎麼用R 寫出來) : [軟體熟悉度]: : 入門(寫過其他程式,只是對語法不熟悉) : [問題敘述]: : 想將資料中的某欄位指定為其最常見的group名稱 : 例如 : series cate : [1,] 1 2 : [2,] 2 3 : [3,] 3 4 : [4,] 4 2 : [5,] 5 2 : [6,] 6 5 : [7,] 1 1 : [8,] 1 2 : [9,] 2 2 : [10,] 2 3 : [11,] 2 4 : [12,] 2 4 : [13,] 2 4 : 在series中1出現三次,其cate分別為2,2,1 頻率最高的為2 : 想將所有series為1的族群 其cate欄位接指定為4 : 又例如 series中為2的族群 其cate 分別為 3,2,3,4,4,4 頻率最高的4 : 想將所有series為2的族群 其cate欄位皆指定為4 : 請問除了用for loop外有其他方法嗎? -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 122.117.37.172 ※ 文章網址: https://www.ptt.cc/bbs/R_Language/M.1439672309.A.25A.html ※ 編輯: andrew43 (122.117.37.172), 08/16/2015 05:00:19 ※ 編輯: andrew43 (122.117.37.172), 08/16/2015 05:00:44
lambking: 謝謝! 但因為資料量很大, 會在想想看其他方法 08/16 06:00
andrew43: 巨大資料的話先看看 #1LhW7Tvj (R_Language) 08/16 06:57
celestialgod: 謝謝a大推薦我的文章~~ 08/16 09:02
lambking: 謝謝! 08/16 18:19