[問題] 大量資料groupby 速率問題

作者qwtl0213 (Wezzy)

看板Python

標題[問題] 大量資料groupby 速率問題

時間Sun May 28 23:16:09 2023

大家好，小弟目前在處理大量資料時遇到了一些問題我有一個dataset 大概有20000筆資料，而因為要用grid search 去找最佳參數，所以我目前的做法是先把原始資料集複製N次（N大概會抓到記憶體能負擔得程度）然後再利用numba 向量化的方式去進行向量化運算而我想做的是把N組算出來的目標函數，依照每組參數進行相加（依照iteration 的編號相加，目前想得出來的只有pandas 的 groupby 方法比較適合我）但是用groupby 的話就會要花費時間把大型array 轉換成dataframe 在進行相加，這樣速度就會慢很多想請問各位有沒有什麼比較好的處理方法，感謝不盡！ ---- Sent from BePTT -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 1.200.245.137 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Python/M.1685286971.A.85B.html

→ lycantrope: polars 05/28 23:53

推 celestialgod: #1aOHwdpn 05/29 11:17

推 bearching: 問個可能不太正確的問題，如果把原始資料集複製一次 06/04 11:37

→ bearching: 算出目標函數存下來，然後把複製的資料集drop掉，再把 06/04 11:38

→ bearching: 原始資料集複製算下一個目標函數，如果這算法是符合需 06/04 11:39

→ bearching: 求的話，會省滿多資源的，而且Ｎ的數量應該可以會比 06/04 11:40

→ bearching: 原本一口氣算的多 06/04 11:40

→ qwtl0213: 後來發現直接複製N次做向量化運算會快很多 06/04 14:57

→ qwtl0213: 因為如果每次複製一次算一次代表有N組參數就要跑N次或 06/04 14:57

→ qwtl0213: 者我還沒有想到其他方法哈哈 06/04 14:57

推 celestialgod: 如果有最小可執行的程式才能幫你看怎麼做不然也是 06/04 17:24

→ celestialgod: 請鬼抓藥單 06/04 17:24

推 leighmeow: Cask 06/17 14:48

→ leighmeow: Dask 06/17 14:48