[問題] 想請問有更有效率的寫法嗎?

作者sariel0322 (sariel)

看板Python

標題[問題] 想請問有更有效率的寫法嗎?

時間Sun Aug 24 14:05:40 2014

我想把一個列數相當多的csv檔案把裡面重複的列數給刪除掉我只能想到這種寫法: import csv rows = [] a = 0 o = open("output.csv","w") f = open("input.csv","r") for row in csv.reader(f): rows.append(row[0]+","+row[1]+","+row[2]+","+row[3]+","+row[4]+","+row[5]+","+row[6]+","+row[7]+","+row[8]+","+row[9]+","+row[10]) for i in set(rows): o.write(i+"\n") f.close() o.close() 但由於行數非常多，資料量也大(csv檔案約400mb) 因此全部跑完可能需要五天(有寫個計數器來大約計算過，為了節省空間沒列出來) 想請問有沒有更有效率的寫法 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 182.234.196.206 ※ 文章網址: http://www.ptt.cc/bbs/Python/M.1408860343.A.6B1.html

推 LiloHuang: 如果重複的資料很多，應該可以不用先把資料放到list內 08/24 17:02

→ LiloHuang: 提供一個做法也許不見得會變快 XD 08/24 17:03

→ LiloHuang: import csv 08/24 17:04

→ LiloHuang: uniqueSet = set() 08/24 17:04

→ LiloHuang: o = open("output.csv","w") 08/24 17:04

→ LiloHuang: f = open("input.csv","r") 08/24 17:04

→ LiloHuang: for row in csv.reader(f): 08/24 17:04

→ LiloHuang: line = ",".join(row) 08/24 17:04

→ LiloHuang: if line not in uniqueSet: 08/24 17:05

→ LiloHuang: o.write(line + "\n") 08/24 17:05

→ LiloHuang: uniqueSet.add(line) 08/24 17:05

→ LiloHuang: f.close() 08/24 17:05

→ LiloHuang: o.close() 08/24 17:05

→ LiloHuang: 有時候性能瓶頸是在硬碟本身，可以看看 CPU 是否有吃滿 08/24 17:11

→ LiloHuang: 畢竟 400mb 的 CSV 要跑到五天真的有點久了些... 08/24 17:12

→ LiloHuang: 避免先放到 list 再轉，至少可以省掉一次 O(n) 的浪費 08/24 17:19

→ yjc1: 不考慮用shell的sort -n < input.csv | uniq > output.csv ? 08/24 20:41

推 LiloHuang: 推 yjcl 的做法，雖然會動到資料先後順序，但非常優雅! 08/24 21:10