關於在GCP上的training

作者tiger0105 (tiger0105)

看板DataScience

標題關於在GCP上的training

時間Sun Sep 11 16:22:42 2022

各位前輩好最近我在使用google cloud platform 建立vm來training yolo的模型環境都已經設置完畢也可以跑，但遇到過了15min-20min job會被砍掉有嘗試用watch -n 1 nvidia-smi來監看也是會斷線有上網查可能是runtime limits(? 想請問各位前輩有遇到這樣的問題嗎謝謝 Ps 硬體設置4-cores+15gb ram +k80 Cpu使用率對時間 https://i.imgur.com/83CDdqT.jpg ----- Sent from JPTT on my iPhone -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 42.72.18.185 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1662884564.A.CA7.html

推 roccqqck: 有個可能是gpu的ram不過 09/11 16:58

→ roccqqck: 不夠 09/11 16:58

→ tiger0105: 感謝r大不過我在跑的時候batch size 沒有很大在nvidi 09/11 17:23

→ tiger0105: a-smi 的使用量大概在2000-3000mib 這張k80好像是～110 09/11 17:23

→ tiger0105: 00mib 應該是夠的（？ 09/11 17:23

→ chang1248w: 一樓的意思是可能某些步驟寫的不對，就會留下垃圾張 09/12 00:09

→ chang1248w: 量把g ram撐爆 09/12 00:09

→ chang1248w: 模型或batch size設太大那剛開始訓練的時候就會oom了 09/12 00:11

→ tiger0105: 感謝C大不過我是用AlexeyAB complie的版本如果哪裡寫 09/12 16:17

→ tiger0105: 錯我也不知道怎麼改QQ 09/12 16:17

→ tiger0105: *compile 09/12 16:18

推 hsuchengmath: 紀錄log啊，gcp應該有類似grafana的監控紀錄吧？ 09/12 20:05

噓 ruthertw: 樓上c在胡說八道,建議你抽V100跑看看,觀察一下~ 09/30 15:46

→ tiger0105: 大家好問題已解決了回文記錄一下因為是用後端運行no 10/13 09:08

→ tiger0105: hup darknet….. > cout.txt & 後來改成 nohup darknet 10/13 09:08

→ tiger0105: …… 2>&1 > cout.txt & 就不會被中斷了詳細為什麼 10/13 09:08

→ tiger0105: 目前還不知道… 因為我在自己的server測是沒問題的 10/13 09:08