[心得] 資料整理套件介紹-第一章 data.table

作者celestialgod (攸藍)

看板R_Language

標題[心得] 資料整理套件介紹-第一章 data.table

時間Tue Jul 21 16:24:57 2015

data.table包含的東西很多但是很多東西都可以被plyr, dplyr的function取代所以data.table很多function，我都不太熟這裡簡單介紹一下data.table 如果你想要了解更多，請自行去看manual 要了解data.table，我們可以先從package的description來看 "Fast aggregation of large data (e.g. 100GB in RAM), fast ordered joins, fast add/modify/delete of columns by group using no copies at all, list columns and a fast file reader (fread). Offers a natural and flexible syntax, for faster development." 簡單翻譯一下，大資料(例如，記憶體中大小為100GB的資料)的在不創建複本下，根據類別(group)變數進行快速整合、排列、合併、增加/修改/刪除行資料等動作。... 重點就在不創建複本，因為R修改data.frame時，會先複製一次再修改，然後傳回複本，因此，會浪費不少記憶體，而且很容易拖累速度，因此， data.table提供這方面更有效率的操作。 (這方面的速度比較可以參考#1LeXNCKV (R_Language) [分享] 資料數據處理修改) 1. data.table 這個函數基本上data.frame使用差不多，而且data.frame的參數都可以放進像是很常用到的stringsAsFactors，只是data.table預設是FALSE，這點跟data.frame不同，使用上需要注意，範例如下： ` R t = data.table(a = LETTERS[1:3]) str(t) # Classes ‘data.table’ and 'data.frame': 3 obs. of 1 variable: # $ a: chr "A" "B" "C" # - attr(*, ".internal.selfref")=<externalptr> t2 = data.frame(a = LETTERS[1:3]) str(t2) # 'data.frame': 3 obs. of 1 variable: # $ a: Factor w/ 3 levels "A","B","C": 1 2 3 ` 第二個差異是data.table不包含rownames，在轉換data.frame到data.table時，要注意這點這裡先提供快速把rownames變成變數的function，plyr的name_rows 附註一條：data.table都包含data.frame的class 可以用在data.frame的方法都可以在data.table上實現但是data.table還多了一個引數 "key"，我對它的解讀是一種索引的概念而透過索引的動作都會被加速。 key可以是一個變數，也可以是多個變數，這點看個人使用。再來，就是data.table的'['，這部分跟data.frame不太一樣所以需要特別說明，但是這部分，我自己也不是很熟悉，我只能大概講過 a. 我們很常在data.frame做取多行的動作，在data.table是不可行的，舉例： ` R vars = data.frame(X = rnorm(3), Y = rnorm(3), Z = rnorm(3)) vars[,1:2] # X Y # 1 -0.5677575 2.1831285 # 2 -0.7161529 0.3714633 # 3 1.2665120 0.7837508 vars_dt = data.table(vars) vars_dt[,1:2] # [1] 1 2 ` 但是你想這麼做，怎麼辦？加上with=FALSE就好了，或是用list包住column name ` R vars_dt[,1:2,with=FALSE] # X Y # 1: -0.5677575 2.1831285 # 2: -0.7161529 0.3714633 # 3: 1.2665120 0.7837508 vars_dt[j=list(X, Y)] # X Y # 1: -0.5677575 2.1831285 # 2: -0.7161529 0.3714633 # 3: 1.2665120 0.7837508 ` 剩下像是by, .SD, .SDcols, ':='等自行?data.table查看吧 data.table的部分就先說明到這，接下來，講一些相關的function b. setkey: 改變key的值, setnames: 改變column name，但是一樣不製造複本 c. copy: 製造data.table的複本 d. setDF: 在不製作複本下，把data.table的class改為data.frame 舉例： ` R DT = data.table(X = rnorm(3), Y = rnorm(3)) str(DT) # Classes ‘data.table’ and 'data.frame': 3 obs. of 2 variables: # $ X: num -1.3738 0.167 -0.0578 # $ Y: num 0.487 1.728 0.646 # - attr(*, ".internal.selfref")=<externalptr> setDF(DT) str(DT) # 'data.frame': 3 obs. of 2 variables: # $ X: num -1.3738 0.167 -0.0578 # $ Y: num 0.487 1.728 0.646 DT = data.table(X = rnorm(3), Y = rnorm(3)) tracemem(DT) # [1] "<0000000006A1BE28>" setDF(DT) # 沒有複製的動作 DF = data.frame(DT) retracemem(DF, retracemem(DT)) # tracemem[<0000000006A1BE28> -> 0x00000000061ec928]: ## 記憶體位置就發生改變了，就複製了DT一次 ` 這部分可能不太懂，不過沒關係，記住一點，要轉成data.frame用setDF就好 e. setDT: setDF的反向 f. duplicated, unique duplicated提供一個跟data.table列數相等長度的邏輯值向量， TRUE代表前面有一樣的列，FALSE代表沒有 unique則是留下沒有重複的列，舉例來說： ` R set.seed(100) DT = data.table(A = rbinom(5, 1, 0.5), B = rbinom(5, 1, 0.5)) # A B # 1: 0 0 # 2: 0 1 # 3: 1 0 # 4: 0 1 # 5: 0 0 duplicated(DT) # [1] FALSE FALSE FALSE TRUE TRUE unique(DT) # A B # 1: 0 0 # 2: 0 1 # 3: 1 0 DT[!duplicated(DT)] # A B # 1: 0 0 # 2: 0 1 # 3: 1 0 ` 不過unique還有更多功能，它可以選擇變數做unique，舉例來說： ` R unique(DT, by = "A") # A B # 1: 0 0 # 2: 1 0 unique(DT, by = "B") # A B # 1: 0 0 # 2: 0 1 ` 順便一提，dplyr的distinct，如果你input的class是data.table 它就是用unique做的 ` R library(dplyr) distinct(DT) # A B # 1: 0 0 # 2: 0 1 # 3: 1 0 ` 你如果想看distinct怎麼做，可以在R上面打dplyr:::distinct_.data.table > dplyr:::distinct_.data.table function (.data, ..., .dots) { dist <- distinct_vars(.data, ..., .dots = .dots) if (length(dist$vars) == 0) { unique(dist$data) } else { unique(dist$data, by = dist$vars) } } 之後提到distinct，我們再來講distinct 其他相關function像是subset, setcolorder, setorder (setorderv) 對這三個function有興趣，再去看manual，不贅述這三個對應到dplyr的filter, select, arrange，之後我們會再提到這些 g. transform: 改變column的屬性、值等，舉例來說： ` R DT = data.table(a = 1:3, b = 2:4, c = LETTERS[1:3]) DT2 = copy(DT) DT[, b := b**2] DT2 %<>% transform(b = b**2) all.equal(DT, DT2) # TRUE DT %<>% transform(c = as.factor(c)) str(DT) # Classes ‘data.table’ and 'data.frame': 3 obs. of 3 variables: # $ a: int 1 2 3 # $ b: num 4 9 16 # $ c: Factor w/ 3 levels "A","B","C": 1 2 3 # - attr(*, ".internal.selfref")=<externalptr> ` h. set: 用來變更特定column，某些列的值，舉個簡單的例子 ` R DT = data.table(a = 1:3, b = 2:4) DT2 = copy(DT) DT[, b := 1] set(DT2,, "b", value = 1) all.equal(DT, DT2) # TRUE ` 一般來說都用'['來做，但是你如果需要用到for再來完成，再用set 還有一個function是 J，這裡就不提了，一樣請洽manual 最後，還有一個operator，':='，它是用來擴增data.table的column，同樣，也不創造複本，這樣可以更快的增加column 那如果刪除怎麼辦？還記得前面學過 DT[, list('X', 'Y')]，就用這個再來，我們講一些data.table中其他function 2. fread 功能可以用來取代read.table, read.csv 它可以用多種separate去分割columns，然後讀入R 而且讀入速度比read.table, read.csv快很多但是注意，不規則的檔案會讀入失敗這裡提幾個參數： a. sep: column跟column之間的分隔，如果是csv就是','，如果是tab separated values就是'\t' b. na.strings: 視作NA的字串，它可以是一個vector c. stringsAsFactors：是否要把字串轉成factor，預設是否 d. colClasses：各行的classes，可以自行設定我愛用fread還有一個原因，第一個input可以直接放我要讀的字串，但是read.table需要經過其他的方式，有點麻煩(我懶得記，其實沒記過) 舉例來說 ` R text = "a b 1 2 3 4" DT = fread(text) setDF(DT) # 轉成data.frame，前面學過，還記得嗎？ DF = read.table(header = TRUE, text = text) # text format DF2 = read.table(textConnection(text), header = TRUE) # file format all.equal(DT, DF) # TRUE all.equal(DT, DF2) # TRUE ` fread很適合拿來讀大資料，所以有必要把table輸出成text 用文字方式處理時，讀入就變得很方便，可見 #1LegOjwB (R_Language) 3. dcast.data.table 這個function，需要先`require(reshape2)` 有人可能會問reshape2就有dcast為啥要用dcast.data.table 原因很簡單，因為dcast.data.table快更多！！速度直接?dcast.data.table下面例子就有，直接來簡介怎麼用第一個input是data.table，第二個是給一個公式舉例來說，如果公式是 Y ~ X，Y的元素會展開在列，X就會在行學過統計的話，應該是contingency table (列聯表) 或是熟悉EXCEL，知道樞紐分析表，它其實就是樞紐分析表 Y就是列聯表中的列變數，X就是行變數製作列聯表也可以說它的應用之一第三個input是加總函數，你如果有相同類別的X, Y 它會把相同類別的值用這個函數做加總，預設是length 先用一個簡單例子來說明 ` R set.seed(100) DT = expand.grid(LETTERS[1:2], LETTERS[3:4]) %>% data.table %>% setnames(c("col1","col2")) %>% rbind(., .) %>% '['(,values := rpois(8,2)) DT # col1 col2 values # 1: A C 1 # 2: B C 1 # 3: A D 2 # 4: B D 0 # 5: A C 2 # 6: B C 2 # 7: A D 3 # 8: B D 1 dcast.data.table(DT, col1~col2) # col1 C D # 1: A 2 2 # 2: B 2 2 dcast.data.table(DT, col1~col2, sum) # col1 C D # 1: A 3 5 # 2: B 3 1 ` 產生資料的函數、operator，我們都講過了，往前找找看我們專注到第一個dcast，dcast.data.table(DT, col1~col2) 可以看的出來 col1就在列，col2就在行展開，然後計算col1, col2有相同類別的length 第二個dcast就是把有相同的類別，把values做總和但是，我們怎麼知道它加總的是values 它會告訴你自動找尋data.table，然後選定values做為加總的column 至於改法就是修改value.var這個input，舉例來說 ` R DT[, values2 := rpois(8, 3)] dcast.data.table(DT, col1~col2, sum, value.var = "values") # col1 C D # 1: A 3 5 # 2: B 3 1 dcast.data.table(DT, col1~col2, sum, value.var = "values2") # col1 C D # 1: A 5 7 # 2: B 3 9 DT[, col3 := rep(LETTERS[5:6],,,4)] dcast.data.table(DT, col1+col2~col3, sum, value.var = "values") # col1 col2 E F # 1: A C 1 2 # 2: A D 2 3 # 3: B C 1 2 # 4: B D 0 1 ` dcast.data.table說明到此，我給兩個應用的例子可以自己先練習一下，跟我對答案這樣 ` R ## example 1 # 我們有一個樣本，是統計每個人抽菸與否以及是否有得到肺癌 # 請幫忙製作列聯表 (抱歉，統計的最常用例子XDDDD) # data generation set.seed(100) n = 1e4 DT = data.table(smoke = rbinom(n, 1, 0.3), lungCancer = rbinom(n,1,0.05)) (table = dcast.data.table(DT, smoke ~ lungCancer)) # smoke 0 1 # 1: 0 6690 362 # 2: 1 2801 147 # 改成文字 DT %<>% transform(smoke = as.character(smoke), lungCancer = as.character(lungCancer)) DT[smoke == "0", smoke := "non-smoking"] DT[smoke == "1", smoke := "smoking"] DT[lungCancer == "0", lungCancer := "non-cancer"] DT[lungCancer == "1", lungCancer := "cancer"] (table = dcast.data.table(DT, smoke ~ lungCancer)) # smoke cancer non-cancer # 1: non-smoking 306 6739 # 2: smoking 145 2810 ## 備註更改部分可以用plyr:::mapvalues做，比較簡單 ## 用迴圈可以這樣做： set.seed(100) n = 1e4 DT2 = data.table(smoke = rbinom(n, 1, 0.3), lungCancer = rbinom(n,1,0.05)) (table = dcast.data.table(DT, smoke ~ lungCancer)) DT2 %<>% transform(smoke = as.character(smoke), lungCancer = as.character(lungCancer)) smoking = c("non-smoking", "smoking") cancer = c("non-cancer", "cancer") for (k in 0:1){ set(DT2, which(DT$smoke == as.character(k)), "smoke", value = smoking[k+1]) set(DT2, which(DT$lungCancer == as.character(k)), "lungCancer", value = cancer[k+1]) } all.equal(DT, DT2) # TRUE # example 2 # 我們有很多學生的成績資料，我們有學生的班級 # 我們想做一個簡單的表格去看各班的成績表現，成績以區間表示 # 像是這樣： # 班級1 班級2 班級3 # 1-10 # 11-20 # 21-30 n = 1e3 DT = data.table(class = paste0("class_", 1:3) %>% sample(n, TRUE), grades = sample(1:100, n, TRUE)) DT[, grade_group := cut(grades, c(0, seq(9, 89, by=10), 100))] (table = dcast.data.table(DT, grade_group ~ class, mean, value.var = "grades")) # grade_group class_1 class_2 class_3 # 1: (0,10] 29 28 33 # 2: (10,20] 31 37 30 # 3: (20,30] 36 44 45 # 4: (30,40] 38 31 38 # 5: (40,50] 39 33 31 # 6: (50,60] 37 32 32 # 7: (60,70] 35 26 25 # 8: (70,80] 31 32 32 # 9: (80,90] 40 26 26 # 10: (90,100] 32 35 36 # 把grade_group改一下 DT %<>% transform(grade_group = as.character(grade_group)) %>% '['(, lb := gsub("\\((\\d*),\\d*\\]", "\\1", grade_group)) %>% transform(lb = as.numeric(lb)) %>% transform(grade_group = paste(lb+1, lb+10, sep="-")) (table = dcast.data.table(DT, grade_group ~ class, length, value.var = "grades")) # grade_group class_1 class_2 class_3 # 1: 1-10 34 39 43 # 2: 11-20 30 39 27 # 3: 21-30 30 33 34 # 4: 31-40 34 36 38 # 5: 41-50 35 31 37 # 6: 51-60 23 26 29 # 7: 61-70 40 36 34 # 8: 71-80 22 34 44 # 9: 81-90 35 33 37 # 10: 91-100 30 26 31 ` 還剩下 melt 跟 merge，我們就留到下一章再繼續吧下一章重點會放在tidyr跟dplyr [關鍵字]: data.table, reshape2 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 123.205.27.107 ※ 文章網址: https://www.ptt.cc/bbs/R_Language/M.1437467101.A.E6D.html