看板 Python 關於我們 聯絡資訊
大家好,小弟目前在處理大量資料時遇到了一些問題 我有一個dataset 大概有20000筆資料,而因為要用grid search 去找最佳參數,所以我目前 的做法是先把原始資料集複製N次 (N大概會抓到記憶體能負擔得程度)然後再利用numba 向 量化的方式去進行向量化運算 而我想做的是把N組算出來的目標函數,依照每組參數進行相加(依照iteration 的編號相加 ,目前想得出來的只有pandas 的 groupby 方法比較適合我) 但是用groupby 的話就會要花 費時間把大型array 轉換成dataframe 在進行相加,這樣速度就會慢很多 想請問各位有沒有什麼比較好的處理方法,感謝不盡! ---- Sent from BePTT -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 1.200.245.137 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Python/M.1685286971.A.85B.html
lycantrope: polars 05/28 23:53
celestialgod: #1aOHwdpn 05/29 11:17
bearching: 問個可能不太正確的問題,如果把原始資料集複製一次 06/04 11:37
bearching: 算出目標函數存下來,然後把複製的資料集drop掉,再把 06/04 11:38
bearching: 原始資料集複製算下一個目標函數,如果這算法是符合需 06/04 11:39
bearching: 求的話,會省滿多資源的,而且N的數量應該可以會比 06/04 11:40
bearching: 原本一口氣算的多 06/04 11:40
qwtl0213: 後來發現直接複製N次做向量化運算會快很多 06/04 14:57
qwtl0213: 因為如果每次複製一次算一次代表有N組參數就要跑N次 或 06/04 14:57
qwtl0213: 者我還沒有想到其他方法哈哈 06/04 14:57
celestialgod: 如果有最小可執行的程式 才能幫你看怎麼做 不然也是 06/04 17:24
celestialgod: 請鬼抓藥單 06/04 17:24
leighmeow: Cask 06/17 14:48
leighmeow: Dask 06/17 14:48