→ bibo9901: 800k * 200k * (4byte整數) = 640 GB 就算s3能放得下 03/01 04:13
→ bibo9901: 你也沒辦法真的拿來計算. 事實上這個大矩陣是很sparse的 03/01 04:14
→ TakiDog: 這個數量用csv ... 03/01 04:14
→ bibo9901: 用稀疏矩陣甚至dict存都很容易 03/01 04:15
→ TZULIU: 可以請兩位高手繼續開示怎麼做比較好嗎?使用AWS RDS? 03/01 04:31
→ TZULIU: 存成dict那之後呼叫的時候,要怎麼補上0呢? 03/01 04:33
推 ripple0129: 你是不是需要的答案是python xxx.py & 03/01 05:25
→ ripple0129: 多&就可以背景執行 03/01 05:26
→ TZULIU: 樓上r大說的也是,所以只要連結到instance之後,在command 03/01 05:32
→ TZULIU: line 打指令後面加&就行了,但要怎麼看log?另一方面,我也 03/01 05:33
→ TZULIU: 是自己第一次處理這麼大量的資料,想請問有經驗的人到底該 03/01 05:33
→ TZULIU: 怎麼做比較好 03/01 05:33
推 TitanEric: nohup python xxx.py &> log& 參考一下 03/01 11:46
→ TitanEric: &> log是將stdout跟stderr輸出到log這個檔案 03/01 11:47
推 legendmtg: 用lambda啊 bucket上檔案建立就會自動執行了 03/01 12:07
→ legendmtg: 用這個設定很簡單 03/01 12:07
推 Sunal: 你需要的是重設計整個架構 可以把更完整的資訊甚至code 03/01 12:14
→ Sunal: 貼上來 或直接找會的人 既然會輸出到CSV 分批處理不就好了 03/01 12:15
→ Sunal: 有什麼理由一定要全部做完一次寫入? 03/01 12:16
→ Sunal: 題外話 要開這樣等級的機器很燒錢的.... 03/01 12:17
推 sma1033: 到了這個架構等級,資源的分配很重要,你要獲得比PC 03/01 13:39
→ sma1033: 強的運算效能,就是要花$,而且不便宜 03/01 13:40
→ sma1033: 如果是AWS上不用錢(或是很便宜)的運算服務,好像不會比 03/01 13:41
→ sma1033: 不錯的個人電腦強多少,要用到比個人電腦強很多的$就很貴 03/01 13:42
推 Plot3D: 可以 tmux還不錯 03/02 00:27
推 Plot3D: 不推薦nohup 03/02 00:29
→ agogoman: 推Sunal, python可以做streaming, 英文單字平均長度不到 03/03 03:13
→ agogoman: 5個字, 串成dict, 然後每個html去mapping, mapping完 03/03 03:14
→ agogoman: streaming落地, 記憶體的使用應該比你想像的小很多. 03/03 03:15