[問題] YOLO訓練自己圖檔問題

作者fangggggg87 (fangggggg)

看板DataScience

標題[問題] YOLO訓練自己圖檔問題

時間Thu Apr 2 23:17:03 2020

作業系統:win10 問題類別:YOLOv2 使用工具:python 問題內容: 不好意思，小妹最近在學習用YOLOv2來分類自己的圖檔，有幾點問題十分困惑，故想請問各位大哥大姐，還懇請各位幫忙解惑了.. 1.訓練的時間要如何加速？目前我是用dgx跑YOLOv2 資料圖檔約4千多，分了6個label。 epoch 先設1000想先跑看看，但過了一天epoch才40幾...因此，想詢問這是正常的嗎？（真的是我的天啊！我以為會一天內或幾小時內就跑好了 ......）還是說可能是一些pa rameter要修改？因為我其實只是想先快速看到第一次的結果準確率為何而已...... 遇到此狀況，就不確定是否以後每次一改參數，就要等好幾天... 還是各位大大有什麼建議，能加速訓練的時間呢？ 2.指標部分我瀏覽了些應用的paper 發現主要都用mAP來去評估模型好壞但卻看不到一些實作評估用confusion box 或單precision與recall等來評估想請問為何yolo或RCnn等的模型評估都不太使用confusion box、precision、Top-5等是因為label可能會很多所以不使用嗎？還是其實也是可以使用？（只是很少人用之類的） 3.loss 最後一個問題，想請問大大們是否有些經驗法則好比loss降到多少其實就差不多收斂了或是可以透過什麼方式來看模型訓練差不多（還是只能看準確率、mAP呢？）不好意思...一次問題有點多.... 而且問題有點雞毛蒜皮超羞恥，不過這些問題困擾我頗久（止不住地一直思考啊啊啊啊啊）因此還懇請各位大大幫忙解答了也謝謝各位願意看到這邊小妹在此感恩不盡>< -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 223.137.143.225 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1585840625.A.3F9.html

→ st1009: 我先說，我沒跑過YOLO，所以我說的可能有錯，不過我猜某些 04/03 00:07

→ st1009: 東西ML應該是共同的吧，加速就看調大batch或者用更好的GPU 04/03 00:07

→ st1009: ，如果只是測試可以考慮用小一點的Data，收斂也比較快。 04/03 00:07

推 st1009: 2.我想是因為單個比較偏頗吧，但是如果目標符合還是能用 04/03 00:09

推 st1009: 3.我是看lose沒有明顯變化就是收斂了 04/03 00:12

st大你好>< 好的!我會再試試看調整batch大小!loss部分..我一直在2.1至3.5徘迴，降不下去我想我應該是要重整數據才會降下去了哈哈哈QQ謝謝你

→ truehero: dgx一天才40epoch,該不會沒縮圖吧...？ 04/03 00:22

t大你好><..請問縮圖的意思是input進去的圖要先重新resize再餵嗎?(我想說餵進去model後，就會先resize就沒先整理圖檔了QQ..)

推 y956403: 1圖片太大張or沒使用GPU 3如果data夠多可以切val set驗 04/03 02:30

→ y956403: 證 overfit的時候停掉 04/03 02:30

m大你好>< 我圖片大多長寬600或700，我想應該同t大意思一樣，餵進去太大所以才跑很久，這個我會再修改謝謝你QQ

推 littleyuan: mAP是拿來當objective metrics，模型出來後你畫出 04/03 03:13

→ littleyuan: confidence level和precision recall之間的關係利 04/03 03:13

→ littleyuan: 用你最想要的precision recall value來決定你的confid 04/03 03:13

→ littleyuan: ence值 04/03 03:13

推 littleyuan: 一個好的model precision recall都不能太低。mAP 值 04/03 03:16

→ littleyuan: 高的話代表你如果confidence level threshold 高prec 04/03 03:16

→ littleyuan: ision 高 recall不會太低。 mAP值不高的話妳precisio 04/03 03:16

→ littleyuan: n 高時 recall就低所以有tradeoff。最慘情況是recal 04/03 03:16

→ littleyuan: l precision都很低那這模型完全不能用。 04/03 03:16

→ littleyuan: 所以當你mAP非常高的時候你的recall precision都是 04/03 03:17

→ littleyuan: 高的是最好的情況 04/03 03:17

推 littleyuan: 就類似ROC curve的概念 04/03 03:19

推 littleyuan: 可以弄early stopping 04/03 03:21

推 littleyuan: 我是用aws cloud computing比較不用煩惱效率問題話 04/03 03:23

→ littleyuan: 說我也是小妹哈哈這行女的比soctware developer多些 04/03 03:23

→ littleyuan: 歡迎加入DS 04/03 03:23

li大你好>< 超感動大家回我的!也謝謝妳回覆超詳細Q//Q 我其實還沒看到結果，是看很多實作文章，但沒怎麼用precision與recall，所以我才再思考結果是否不會出現precision等指標，然後只會出現mAP,而我要自己反推precision這樣。我想我還是先再重新數據，用小的epoch來看一次結果為何，再來判定我到底要用什麼指標好了!不過您的回覆，讓我受益良多，增加很多概念!謝謝妳:) ※ 編輯: fangggggg87 (140.124.76.114 臺灣), 04/03/2020 11:37:19 ※ 編輯: fangggggg87 (140.124.76.114 臺灣), 04/03/2020 11:39:59 ※ 編輯: fangggggg87 (140.124.76.114 臺灣), 04/03/2020 11:42:03 ※ 編輯: fangggggg87 (140.124.76.114 臺灣), 04/03/2020 11:45:10

推 Sfly: 700不算太大張，你大概是沒使用到gpu 04/03 20:24

→ Sfly: 另外，看loss值不準，一定要用其他指標如recall來選模型 04/03 20:26

Sf大你好，我終於看懂了大家為啥說我gup沒使用了，原來語法上要自己加入我以為電腦會自動使用哈哈哈哈哈QQ 目前使用了，速度快很多! 其他指標的部份...我想..應該也要自己加上語法讓它顯示出來的樣子 (原本也以為跑完就會出現精準度等等，所以就傻等了2天...哭..) 我會再研究看看怎加其他指標進去的~ 謝謝你:) ※ 編輯: fangggggg87 (140.124.76.106 臺灣), 04/04/2020 13:36:50 ※ 編輯: fangggggg87 (140.124.76.106 臺灣), 04/04/2020 13:39:34

推 st1009: ctrl+y可以刪除多餘的綠色行,注意不要刪到推文就好 04/04 14:00

st大你好，拍謝..我弱弱的看不太懂綠色行的意思是什麼QQ...

推 luluthejason: loss不同data 不同loss設計的話彼此之間很難比較 04/05 15:56

推 shhs1000246: loss觀察趨勢呀每一種loss的計算方式不一樣要看定義 04/06 03:54

→ shhs1000246: 還有yolo前面好像有加resize了不需要自己縮 04/06 03:54

→ shhs1000246: 要看什麼時候停可以加validation看看mAP的狀況 04/06 03:56

→ shhs1000246: 最後加速問題可以考慮用多張gpu 雖然4000多張感覺不 04/06 03:57

→ shhs1000246: 是很多就是 04/06 03:57

ms大你好，好的!我有去查一下YOLO的loss function內容設計為何了，一開始我也在納悶有resize那我還要縮嗎哈哈結果是我沒叫出要用gup的指令才跑那麼慢(汗) 不過還是感恩你><

推 sxy67230: 會用mAP主要是因為object detection 有兩個變因threshol 04/06 11:29

→ sxy67230: d 會影響performance 結果，採用mean average 就是去計 04/06 11:29

→ sxy67230: 算線下面積的平均，好處就是比較有公定基準來評估模型。 04/06 11:29

→ sxy67230: 剩下我印象中蠻多網站都有評量方式，可以去看看怎麼實作 04/06 11:29

→ sxy67230: 會比較了解我說的 04/06 11:29

sxy大你好，好的!這個部分我會再去多找找看變因有哪些，對這個領域剛接觸.. 弱弱的菜鳥，我加油QQ 謝謝你>< ※ 編輯: fangggggg87 (140.124.76.106 臺灣), 04/07/2020 21:49:18

推 st1009: 綠色行就是編輯完之後出現的紀錄行，其實不刪也可以 04/07 21:57

→ st1009: 我是在說PTT的功能 04/07 21:58

→ fangggggg87: 好的謝謝你xd 04/08 13:13

推 sssh: 我自己train 七個類別，training data 三萬多張，大概train 04/13 21:46

→ sssh: 個兩天 Loss 就可以收斂了，然後一般設計 YOLO ，大概都會 04/13 21:46

→ sssh: 先偵測你是否有GPU,沒有的話才會用CPU train吧？ 04/13 21:46

→ sssh: Loss的部分，我用 darknet YOLOv2 tiny大概可以壓到0.0015 04/13 21:48

→ sssh: 左右 04/13 21:48

→ fangggggg87: sssh大你好！目前我應該是自用顯卡來跑，因為dgx所 04/20 14:04

→ fangggggg87: 用的環境跟自己弄的不相容QQ 希望之後我增量上去也可 04/20 14:04

→ fangggggg87: 以跑很快，謝謝你提供經驗讓我打了個強心針xd 04/20 14:04

推 wargods8402: YOLOV2沒跑過，V3可以參照AlexeyAB修改後的，支援輸 04/28 00:30

→ wargods8402: 出成折現圖，每個類別的mAP...等。需要修改Makefile 04/28 00:30

→ wargods8402: 做訓練過程加速。有時候看到數值降到理想值了，不代 04/28 00:30

→ wargods8402: 表結果會是最好的，訓練過程中會產出暫存檔，可以取 04/28 00:30

→ wargods8402: 出來做測試看看。 04/28 00:30

→ fangggggg87: wargods你好我目前有成功跑出來了>< 只是loss值還 05/10 17:54

→ fangggggg87: 很高，mAP不大理想QQ 我想我目前就是多改參數都跑看 05/10 17:54

→ fangggggg87: 看吧...... 謝謝你的回覆，希望可以快快看到理想數 05/10 17:54