Re: [問題] 請問為何我這程式會吃掉過多記憶體？

作者Kuster (克斯特)

看板Python

標題Re: [問題] 請問為何我這程式會吃掉過多記憶體？

時間Sun Feb 8 19:33:07 2009

我的檔案格式是一行一行，每行有若干個數字我要將每個數字都讀近來說的再清楚一點，這是一個存graph的文字檔，每個數字代表各node 每行的第一個數字代表起始點，後面跟若干個數字代表這個node有連線到後面那些node 我想要自己設計資料結構來儲存這些資料以一個一維陣列代表index 再用一個一維陣列存data 這樣若我要取編號為30的那個node有連線到那些node，我就只要下指令： data[index[30-1]:index[30]] 這樣切出來的東西就會是我要的了~ 這樣應該速度快且省記憶體(應該啦) 問題是.... 我的系統是ubuntu 64bit 一個int就佔了8byte? 我嘗試使用NumPy指定我的array內整數為Int32，可是依舊肥大直接使用： data = range() 使用list格式，會佔用2.4G ram 若用NumPy指定整數為Int32： data = array( range() , Int32 ) 這樣記憶體會先標到2.4G，然後下降到1.9G 整體來說依舊相當肥直接算的話，我有80M左右的資料量，資料內容是Int32，照理說就： 80M * 4byte = 320MB 我只要這麼多的記憶體空間就夠了造成記憶體佔用如此大的原因應該就是數字也是物件的關係吧？猜的請問若我要塞這麼大量的整數進去記憶體，使用python的話該用什麼方法呢？我之前是學Java的，現在想說跳Python看看..... 感謝各位前輩！！ -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 140.123.103.210

推 ykjiang:graph 的話，我建議去抓 NetworkX ，可以存成 yaml 格式 02/08 21:10

→ ykjiang:如果要跟舊格式相容，才需要自己寫 parser 02/08 21:11

推 ykjiang:對了，你資料的 nodes 數及平均 degree 是多少？ 02/08 21:13

→ ykjiang:如果網路規模太大，可考慮採用Boost Graph Library ， 02/08 21:16

→ ykjiang:它是 C++ 的庫，且有 Python bindings 02/08 21:16

→ yungyuc:Kruster 用的 graph 格式剛好是 metis 用的 02/08 21:37

→ yungyuc:s/Kruster/Kuster 02/08 21:38

推 ykjiang:其實這個格式叫做 adjacency list ，是很標準的作法， 02/08 21:54

→ ykjiang:NetworkX 也有支援這個格式 http://tinyurl.com/abek8l 02/08 21:55

→ ykjiang:當初我因為每個 node 都有屬性，所以無法直接用這個格式 02/08 21:57

推 ykjiang:NetworkX 對 Graph 的支援很完整，可省很多工夫 02/08 21:59

推 ykjiang:你loop過程記憶體需求飆高，很可能是遇到 degree 大的節點 02/08 22:11

推 ykjiang:既簡單沒有吃記憶體的問題 02/08 22:14

→ ykjiang:以你文中提到的應用，直接開檔讀指定 node 的那行不就得了 02/09 13:20