看板 Python 關於我們 聯絡資訊
嗨,新手到此拜會. 想問個問題,我有個工作需要用迴圈讀大量資料. 我想,假如在迴圈中指定了很多區域變數,這些變數空間在下一圈都直接拋棄掉嗎? 或者,我是否該在迴圈跑到一個數量的圈數,就開一次gc? -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 118.167.145.113 ※ 文章網址: http://www.ptt.cc/bbs/Python/M.1400610793.A.346.html
apua:like this? ``for i in [1,2]: a=1`` 05/21 14:31
yauhh:Yes. Many variables local to for loop. 05/21 17:24
grtfor:沒記錯的話,python 的gc call了,也不會馬上回收 05/21 23:32
ya790206:在 python,每次呼叫 gc.collect() 都會真的跑一次 05/22 23:00
ya790206:garbage collect。詳見CPython 原始碼Modules/gcmodule.c 05/22 23:01
ya790206:的 gc_collect function 。 05/22 23:02
ya790206:這裡說的是官方網站以c語言寫的直譯器,其他的我不知道 05/22 23:03
yauhh:那假如不用gc,迴圈中的變數會累積嗎? 05/23 12:09
ya790206:如果你的"不用gc"的意思是指gc.disable()來停用 gc 的話 05/23 22:28
ya790206:那麼你所產生的物件都不會被刪除。如果你"不用gc"指不 05/23 22:28
ya790206:呼叫gc.collect() ,則系統會在必要時自動呼叫 05/23 22:29
ya790206:gc.collect()。你不必刻意去呼叫他(除非你知道你在幹嘛) 05/23 22:29
ya790206:一直呼叫gc.collect()不會出事,只是一直再做沒意義的事 05/23 22:31
ya790206:而已 05/23 22:31
yauhh:唉,我真正在問的問題是迴圈中的變數所佔的記憶體空間,但你卻 05/23 23:03
yauhh:只在gc那邊繞. gc我知道啦,如果我想用就會用,但要用也要用在 05/23 23:04
yauhh:適當的情況. 而我的問題就是在詢問/尋找那個適當的情況而已. 05/23 23:05
yauhh:不要繼續在gc繞了. 我沒問gc的問題. 05/23 23:05
先為我問了問題之後,再嫌答題答案的動作致歉。但我很直接的想法是:假如你不知道 我問的是什麼,並且不知道其實你沒有回答到我的問題,那我真想要的答案就不會出現。 別人會以為,我真的再問gc怎麼用。 我的問題緣起是,我有一批現有XML資料要處理,並且未來有更多XML資料。 由於每個XML都小,但是XML檔的數量很多,所以我的程式顯然是一個迴圈,每一圈裡頭 都有各自獨立的檔案讀取、解碼轉換為CSV的動作,而且是在一圈中就跑出好幾個XML或 CSV的物件。 這個程式,雖然我還沒寫,但是我可以先評估程式的結構、效能,資源的使用與浪費。 因此,詢問「迴圈使用gc」的問題,其實是要等熟悉python VM的人回答一些底層機制 的因素,像是迴圈中的變數,有沒有根據dependency來決定要不要啟動gc。我評估迴圈 中的變數是否累積,用意是要考量是否需要為了這一點寫容錯的程式。 雖然你很用功看了python的源碼有關gc.collect()的那一行,但是,你的討論似乎談到 一個很小的層面,你只用gc.collect()這一段程式,就想要說明python整個系統gc機制, 這樣有意義嗎?我倒覺得,不要浪費時間,如果能有精力看VM源碼,來bbs回答一個很小 的重點,實在是糟蹋。 ※ 編輯: yauhh (118.167.144.208), 05/23/2014 23:48:54
ya790206:我去年就已經看完 python gc 演算法和 vm 如何執行程式碼 05/24 11:03
ya790206:並不是為了回答你問題而去看程式碼。 05/24 11:04
timTan:再問清楚一點就好,何必講些失焦的話 05/24 18:23