Re: [問題] 關於邊讀邊寫 or MemoryStream(.net)

作者huggie (huggie)

看板Python

標題Re: [問題] 關於邊讀邊寫 or MemoryStream(.net)

時間Mon May 19 13:49:44 2008

※ 引述《qqttpp (ㄎ一歐)》之銘言： : =================================== : 但是其實我真正想要做的是 : 有一個中間的buffer可以使下載跟存入硬碟同時進行(要寫入硬碟要等資料量達一定) : 所以流程變成是 : 先起頭下載 : 立刻啟動寫入硬碟機制 : (已經下載的資料正在寫入硬碟,未下載資料正從網路下載回來) : 未下載資料網路下載完成 : 已下載的資料寫入完成 : 另外我也查了很多的資料從這篇好像就是描述怎樣使用python達成這功能 : 眾裡尋她，驀然回首——Python的流機制: : http://0rz.tw/8044I : 後來模仿大大的方法做了一個類似的東西這 URL 我打不開耶.. : =================================== : uf = urllib.urlopen(url) : f = open(fn, 'wb') : def buff(uf): : try: : data="" : lines=0 : for line in uf: : data += line 這行很慢吧?! data 是字串類別嗎? 字串要一直串接是很沒有效率的， data 改成 list 然後用 append 比較好。 Java 這樣也會超級沒效率的。用 list 就是類似於 C# 的 StreamBuffer 這樣來使用。 : lines=lines+1 : if lines==1000: : lines=0 : break : yield data 這邊再把他接起來 ''.join(data) 你要不要試試看看會不會比較快？ : except StopIteration, e: : f.close() : return : while True: : try: : f.write(buff(uf).next()) : except: : f.close() : ========================================= : 可是事後證明這樣超級銷耗cpu資源雖然我覺得 data 慢應該是慢在 network，可是你又說耗 CPU，所以我猜有可能是一直 cat 那個字串的結果。(不確定) 另外你寫的這似乎還是沒有做到你想要的，因為 write 是個會 block 的呼叫。應該要用上面那個大大所說得 thread。但 thread 在 Python 領域裡面似乎是不太盛行的，因為 thread 容易造成撰寫時的錯誤，一般來講是如不需要，盡可能避免的。如果真的需要多工的時候，一般應該是用 asyncore 或 Twisted 吧？！ (小弟兩個都沒接觸過) 個人認為，disk write 比 network 速度要快很多，依照 Big O 的觀念為了這個多工是不值得的。 (雖然我對 1.7Mb/s的速度跟硬碟寫入的速度差別沒什麼感覺..我只是說個通則) 即使多工，大部分時間你的 disk write 的邏輯還是得在那邊等待那個 data 塞滿，不會省太多時間的。 -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 140.129.160.62 ※ 編輯: huggie 來自: 140.129.160.62 (05/19 13:51)

→ qqttpp:原文很怪他用簡體中文當網址所以會讀不太到 05/20 00:17

→ qqttpp:另外因為目標是希望做到像flashget這樣多檔同時多線下載 05/20 00:19

→ qqttpp:不過的確用直接寫硬碟的方式似乎也很有效率 05/20 00:21

→ qqttpp:thread在python不流行阿@@? 可是使用者介面就常常要用不是? 05/20 00:22

→ huggie:使用者介面我就不清楚，可是多工不一定要用thread 05/20 23:05

→ huggie:我猜測 asyncore 跟 twisted 也可以做到你要的 05/20 23:06

→ huggie:我覺得相較於那兩者來說，thread 較少用 05/20 23:13

→ huggie:曾為了多工買了本書..裡面只講到三四頁.後來才發現別人 05/20 23:13

→ huggie:根本不太用thread 05/20 23:13