推 TitanEric: 查了一下官網 有chunk_size可以指定 也許會好一點07/27 20:17
→ energyaxd: 我照找到的範例做過for chunk in chunks 這邊就會error07/27 21:18
→ energyaxd: 好像是說chunks不能迭代 我也不懂...07/27 21:18
→ TitanEric: 可以貼一下你嘗試的code嗎~07/27 22:56
→ energyaxd: 忘記哪裡看到的chunks是json reader可是不知道怎麼用07/28 11:28
→ energyaxd: 昨天查到改成64bit用ijson勉強可以讀進去 不過非常的慢07/28 11:31
s
※ 編輯: energyaxd (49.217.85.245 臺灣), 07/28/2019 12:01:06
→ TitanEric: 錯誤訊息看起來是內容不太能parse? 07/28 12:07
推 TitanEric: BTW 上面連結你也許可以參考 07/28 12:10
→ energyaxd: 謝謝 我再研究看看 07/28 15:16
推 sherees: 檔案多大 記憶體多大 07/28 22:51
→ energyaxd: 2G的json 16G的Ram 07/29 18:28
推 ssivart: 30萬列要2g??? 07/30 00:14
→ energyaxd: 有些欄位是文章 或是回覆組成的list 07/30 16:32
→ energyaxd: 不知道是不是要找別的方式分析處理? 07/30 16:33
→ s860134: 網路上有類似的討論 07/30 21:18
→ s860134: giga byte 級的 json 是不是 JSONL 格式? 07/30 21:23
→ s860134: 因為是逐行讀入,所以可以避開佔用 memory 的問題 07/30 21:27
→ s860134: 資料會因為物件結構不同使得 memory size 倍數成長 07/30 21:28