看板 DataScience 關於我們 聯絡資訊
各位前輩好 最近我在使用google cloud platform 建立vm來training yolo的模型 環境都已經設置完畢也可以跑,但遇到過了15min-20min job會被砍掉 有嘗試用watch -n 1 nvidia-smi來監看也是會斷線 有上網查可能是runtime limits(? 想請問各位前輩有遇到這樣的問題嗎 謝謝 Ps 硬體設置4-cores+15gb ram +k80 Cpu使用率對時間 https://i.imgur.com/83CDdqT.jpg
----- Sent from JPTT on my iPhone -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 42.72.18.185 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1662884564.A.CA7.html
roccqqck: 有個可能是gpu的ram不過 09/11 16:58
roccqqck: 不夠 09/11 16:58
tiger0105: 感謝r大 不過我在跑的時候batch size 沒有很大 在nvidi 09/11 17:23
tiger0105: a-smi 的使用量大概在2000-3000mib 這張k80好像是~110 09/11 17:23
tiger0105: 00mib 應該是夠的(? 09/11 17:23
chang1248w: 一樓的意思是可能某些步驟寫的不對,就會留下垃圾張 09/12 00:09
chang1248w: 量把g ram撐爆 09/12 00:09
chang1248w: 模型或batch size設太大那剛開始訓練的時候就會oom了 09/12 00:11
tiger0105: 感謝C大 不過我是用AlexeyAB complie的版本 如果哪裡寫 09/12 16:17
tiger0105: 錯我也不知道怎麼改QQ 09/12 16:17
tiger0105: *compile 09/12 16:18
hsuchengmath: 紀錄log啊,gcp應該有類似grafana的監控紀錄吧? 09/12 20:05
ruthertw: 樓上c在胡說八道,建議你抽V100跑看看,觀察一下~ 09/30 15:46
tiger0105: 大家好 問題已解決了 回文記錄一下 因為是用後端運行no 10/13 09:08
tiger0105: hup darknet….. > cout.txt & 後來改成 nohup darknet 10/13 09:08
tiger0105: …… 2>&1 > cout.txt & 就不會被中斷了 詳細為什麼 10/13 09:08
tiger0105: 目前還不知道… 因為我在自己的server測是沒問題的 10/13 09:08