推 LiloHuang: 如果重複的資料很多,應該可以不用先把資料放到list內 08/24 17:02
→ LiloHuang: 提供一個做法也許不見得會變快 XD 08/24 17:03
→ LiloHuang: import csv 08/24 17:04
→ LiloHuang: uniqueSet = set() 08/24 17:04
→ LiloHuang: o = open("output.csv","w") 08/24 17:04
→ LiloHuang: f = open("input.csv","r") 08/24 17:04
→ LiloHuang: for row in csv.reader(f): 08/24 17:04
→ LiloHuang: line = ",".join(row) 08/24 17:04
→ LiloHuang: if line not in uniqueSet: 08/24 17:05
→ LiloHuang: o.write(line + "\n") 08/24 17:05
→ LiloHuang: uniqueSet.add(line) 08/24 17:05
→ LiloHuang: f.close() 08/24 17:05
→ LiloHuang: o.close() 08/24 17:05
→ LiloHuang: 有時候性能瓶頸是在硬碟本身,可以看看 CPU 是否有吃滿 08/24 17:11
→ LiloHuang: 畢竟 400mb 的 CSV 要跑到五天真的有點久了些... 08/24 17:12
→ LiloHuang: 避免先放到 list 再轉,至少可以省掉一次 O(n) 的浪費 08/24 17:19
→ yjc1: 不考慮用shell的sort -n < input.csv | uniq > output.csv ? 08/24 20:41
推 LiloHuang: 推 yjcl 的做法,雖然會動到資料先後順序,但非常優雅! 08/24 21:10