Re: [問題] CSV資料切割

作者locka (locka)

看板R_Language

標題Re: [問題] CSV資料切割

時間Thu Feb 23 16:02:35 2023

library(igraph) library(tidyverse) library(readr) # 儲存最終結果的空dataframe result_df <- data.frame() callback_f <- function(x, pos){ # 測試資料裡有variable的變數,須把它拿掉變成square matrix # 才可以做graph.adjacency() x <- x[,-1] # 做你要的計算(graph.adjacency) A <- graph.adjacency(t(x), mode="directed", weighted=T) result_chunk <- cbind(result1=graph.strength(A,mode="in"), result2=graph.strength(A,mode="out")) print(result_chunk) # 印出每個chunk計算的結果,確認答案用,可註解 result_chunk # 回傳結果 } # 將運算結果存到result_df result_df <- read_csv_chunked("demo.csv", DataFrameCallback$new(callback_f),chunk_size=4) result_df 程式碼好讀版 https://i.imgur.com/KYgt8fV.jpg 執行結果 https://i.imgur.com/L9cHuiI.jpg 補充1 個人是建議盡量不要使用把原始資料拆成很多個.csv檔然後再重新讀進來做運算因為檔案的讀取跟寫入(I/O)是最花時間的,資料量大的時候更明顯 readr套件提供的read_csv_chunked()即是一次讀一小段資料進來透過callback_f這個參數,定義資料讀進來後要做的事情再整合在一起 callback function 可以做任何事可以寫檔(像上次你問的一樣)、也可以做計算那既然你還要一個一個讀進來計算graph.adjacency,然後還要結果整合成一個df 不如直接寫在callback function 裡面補充2 下次請在程式碼裡加入載入的套件(除非你都使用原生函數) 不是每個人都知道graph.adjacency()是哪個套件提供的function 直接複製你的程式碼沒辦法執行,還要去查才知道是igraph套件這樣會降低版友的回答慾望喔~~ 注意小細節,創造對回答者友善的交流環境:) 感謝您! 小小板工下台一鞠躬 ※ 引述《haitairoutzu (海苔肉粽)》之銘言： : ※ 引述《locka (locka)》之銘言： : : library(tidyverse) : : library(readr) : : # 產生測試資料 : : demo <- tibble(variable=1:16, : : id1=rnorm(16), : : id2=rnorm(16), : : id3=rnorm(16), : : id4=rnorm(16)) : : write_csv(demo, "demo.csv") : : # 使用read_csv_chunked() 每4row切割並輸出成一個新的檔案 : : callback_f <- function(x, pos) write_csv(x, paste0("chunk_",pos%/%4,".csv")) : : read_csv_chunked("demo.csv", DataFrameCallback$new(callback_f), chunk_size=4 : ) : : 結果如下: : : 原資料 : : https://i.imgur.com/y3GmbSh.jpg : : 輸出4個檔案 : : https://i.imgur.com/5b2pzEi.jpg : ------------------------------------------------------------------- : 謝謝各位的解答，我收益良多 : 如今我有一個衍伸的問題 : 如果我要將這4個分開的矩陣做同樣的運算並且將最終運算結果整理到同一個檔案中的話 : 除了一筆一筆運算外，有沒有比較快的方式? : 我使用的指令如下 : 承續locka的指令 : library(igraph) : #將4個輸出檔案匯入 : data1 <- read.csv("chunk_0.csv", header=T, sep=",",row.names = 1) : data2 <- read.csv("chunk_1.csv", header=T, sep=",",row.names = 1) : data3 <- read.csv("chunk_2.csv", header=T, sep=",",row.names = 1) : data4 <- read.csv("chunk_3.csv", header=T, sep=",",row.names = 1) : #自定義一個運算函數 : test=function(X){ : A=graph.adjacency(t(X), mode="directed",weighted =T) : result=topov=cbind(result1=graph.strength(A, mode = "in"), : result2=graph.strength(A, mode = "out")) : return(list(result=result)) : } : #將4個匯入檔案分別計算 : output1 = test(data1) : output2 = test(data2) : output3 = test(data3) : output4 = test(data4) : #將4個計算結果合併並輸出 : result1_all = as.data.frame(cbind(output1$result[,1],output2$result[,1],output : 3$result[,1],output4$result[,1])) : result2_all = as.data.frame(cbind(output$result[,2],output2$result[,2],output3 : $result[,2],output4$result[,2])) : write_csv(result1_all,"result1_all") : write_csv(result2_all,"result2_all") -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 220.129.15.178 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/R_Language/M.1677139357.A.155.html

推 haitairoutzu: 謝謝版主的建議及提醒，我之後會留意謝謝 02/24 13:31