推 roccqqck: 有個可能是gpu的ram不過 09/11 16:58
→ roccqqck: 不夠 09/11 16:58
→ tiger0105: 感謝r大 不過我在跑的時候batch size 沒有很大 在nvidi 09/11 17:23
→ tiger0105: a-smi 的使用量大概在2000-3000mib 這張k80好像是~110 09/11 17:23
→ tiger0105: 00mib 應該是夠的(? 09/11 17:23
→ chang1248w: 一樓的意思是可能某些步驟寫的不對,就會留下垃圾張 09/12 00:09
→ chang1248w: 量把g ram撐爆 09/12 00:09
→ chang1248w: 模型或batch size設太大那剛開始訓練的時候就會oom了 09/12 00:11
→ tiger0105: 感謝C大 不過我是用AlexeyAB complie的版本 如果哪裡寫 09/12 16:17
→ tiger0105: 錯我也不知道怎麼改QQ 09/12 16:17
→ tiger0105: *compile 09/12 16:18
推 hsuchengmath: 紀錄log啊,gcp應該有類似grafana的監控紀錄吧? 09/12 20:05
噓 ruthertw: 樓上c在胡說八道,建議你抽V100跑看看,觀察一下~ 09/30 15:46
→ tiger0105: 大家好 問題已解決了 回文記錄一下 因為是用後端運行no 10/13 09:08
→ tiger0105: hup darknet….. > cout.txt & 後來改成 nohup darknet 10/13 09:08
→ tiger0105: …… 2>&1 > cout.txt & 就不會被中斷了 詳細為什麼 10/13 09:08
→ tiger0105: 目前還不知道… 因為我在自己的server測是沒問題的 10/13 09:08