看板 Python 關於我們 聯絡資訊
我想把一個列數相當多的csv檔案 把裡面重複的列數給刪除掉 我只能想到這種寫法: import csv rows = [] a = 0 o = open("output.csv","w") f = open("input.csv","r") for row in csv.reader(f): rows.append(row[0]+","+row[1]+","+row[2]+","+row[3]+","+row[4]+","+row[5]+","+row[6]+","+row[7]+","+row[8]+","+row[9]+","+row[10]) for i in set(rows): o.write(i+"\n") f.close() o.close() 但由於行數非常多,資料量也大(csv檔案約400mb) 因此全部跑完可能需要五天(有寫個計數器來大約計算過,為了節省空間沒列出來) 想請問有沒有更有效率的寫法 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 182.234.196.206 ※ 文章網址: http://www.ptt.cc/bbs/Python/M.1408860343.A.6B1.html
LiloHuang: 如果重複的資料很多,應該可以不用先把資料放到list內 08/24 17:02
LiloHuang: 提供一個做法也許不見得會變快 XD 08/24 17:03
LiloHuang: import csv 08/24 17:04
LiloHuang: uniqueSet = set() 08/24 17:04
LiloHuang: o = open("output.csv","w") 08/24 17:04
LiloHuang: f = open("input.csv","r") 08/24 17:04
LiloHuang: for row in csv.reader(f): 08/24 17:04
LiloHuang: line = ",".join(row) 08/24 17:04
LiloHuang: if line not in uniqueSet: 08/24 17:05
LiloHuang: o.write(line + "\n") 08/24 17:05
LiloHuang: uniqueSet.add(line) 08/24 17:05
LiloHuang: f.close() 08/24 17:05
LiloHuang: o.close() 08/24 17:05
LiloHuang: 有時候性能瓶頸是在硬碟本身,可以看看 CPU 是否有吃滿 08/24 17:11
LiloHuang: 畢竟 400mb 的 CSV 要跑到五天真的有點久了些... 08/24 17:12
LiloHuang: 避免先放到 list 再轉,至少可以省掉一次 O(n) 的浪費 08/24 17:19
yjc1: 不考慮用shell的sort -n < input.csv | uniq > output.csv ? 08/24 20:41
LiloHuang: 推 yjcl 的做法,雖然會動到資料先後順序,但非常優雅! 08/24 21:10