[問題] 全捲積網路(FCN) 在YOLOV2上訓練的問題

作者NMOSFET (NMOSFET)

看板DataScience

標題[問題] 全捲積網路(FCN) 在YOLOV2上訓練的問題

時間Mon Apr 16 14:18:42 2018

問題類別: CNN 問題內容: 請問各位大大 YOLOV2 的架構因為沒有全連接層(都用捲積層取代)，所以在訓練的時候，可以輸入任意大小的圖片做訓練但輸入任意大小的圖片，經過整個模型，算到最後的 feature map 大小不是會不一樣嗎? 而 YOLOV2 最後的feature map 大小是 13*13*125(125是5個bbox的資訊) 再拿13*13*125的 feature map 去算 detection 的 loss，那這樣怎麼會對得起來? 還是說會根據最後一層的 feature map 大小去調整對應的 loss ? 小弟一直卡在這邊，能否請各位大大幫忙解惑一下，感恩! 論文名稱:YOLO9000: Better, Faster, Stronger -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 163.18.104.168 ※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1523859524.A.530.html

→ jackwang01: 記得沒錯的話他有做resize的動作04/16 14:26

resize 是指 loss 架構嗎? ※ 編輯: NMOSFET (163.18.104.168), 04/16/2018 15:05:41 ※ 編輯: NMOSFET (163.18.104.168), 04/16/2018 15:59:53 ※ 編輯: NMOSFET (163.18.104.168), 04/16/2018 16:05:15

推 hl4: 進到model之前可能先resize過了04/16 17:07

推 OnePiecePR: 應該就是ㄧ二樓的講法。前端進入麻豆前 resize, 作出104/16 18:14

→ OnePiecePR: 3*13的 grids 才能 meet model 的處理。04/16 18:14

推 f496328mm: resize 是指縮放圖片的大小例如 640*320 - > 13*1304/16 22:10

那請問一下，同樣的圖片，不同解析度，一張是1600*1600，另一張800*800,兩張圖片同樣resize變成416*416,解析度的品質一樣嗎 ※ 編輯: NMOSFET (1.175.73.141), 04/16/2018 23:51:42

推 KyotoAnime: 呃前者也許比較好一點點吧但這幾乎不會是個issue04/17 00:34

推 jameszhan: 解析度變怎樣沒有考慮的必要因為不resize連餵都不能04/17 01:25

→ jameszhan: 餵04/17 01:25

推 jameszhan: 另外能輸入任意大小是因為有resize 跟有沒有全連接層無04/17 01:27

→ jameszhan: 關吧04/17 01:27

推 jameszhan: 建議再看一下神經網路裡矩陣運算的方式04/17 01:29

Yolov2是每10個epoch更改(resize)輸入圖片的維度，但CNN detection 架構是不變的，我想問的是，最後一個feature map 大小不一樣，是怎麼算LOSS

推 KyotoAnime: 上面幾樓好像怪怪的 yolo確實有resize 但yolov2 可沒04/17 02:07

→ KyotoAnime: 有04/17 02:07

→ KyotoAnime: 不應該說yolov2的resize是故意讓他變得不一樣大小04/17 02:08

→ KyotoAnime: Fc layer本來就會限制input dimension conv layer就04/17 02:09

→ KyotoAnime: 不受限04/17 02:09

→ KyotoAnime: 至於原po說的loss function需要調整這件事04/17 02:09

推 KyotoAnime: 我是沒仔細看啦不過loss function通常是sigma 你的04/17 02:12

→ KyotoAnime: 圖像變了 sigma項數就改變了而已在實作上甚至不用改c04/17 02:12

→ KyotoAnime: ode 想想numpy.sum()不管有幾個element寫法也都是一04/17 02:12

→ KyotoAnime: 樣 04/17 02:12

謝謝k大，我在想說最後一個feature map 會不會 reshape成13*13 *125 還是不 reshap e 直接？*？*125 丟進loss 去算

推 EGsux: 如果800*800會變成416*416 那1600*800 會變成832*416 13*1304/17 07:03

→ EGsux: 變26*13 這樣會不會比較好懂04/17 07:03

所以意思是說一張圖片分成26*13 grid 還是兩組13*13 grid 去算Loss

推 leoloveivy: 原po是說multiscale trainging 嗎04/17 10:48

→ leoloveivy: 反正label都是0-1之間04/17 10:48

→ leoloveivy: 所以其實還會有一個label 轉換04/17 10:48

→ leoloveivy: 看你feature map w h多少做轉換04/17 10:48

→ leoloveivy: 那這樣就可以算loss04/17 10:48

推 leoloveivy: detection 跟classfication不太一樣04/17 10:52

→ leoloveivy: resize再進去一定有差04/17 10:52

沒錯就是 multiscale trainging ，轉換的意思是轉成13*13嗎？ ※ 編輯: NMOSFET (218.174.81.46), 04/17/2018 11:26:19 ※ 編輯: NMOSFET (218.174.81.46), 04/17/2018 12:41:20 ※ 編輯: NMOSFET (218.174.81.46), 04/17/2018 12:52:40

推 leoloveivy: 應該是轉換你feature map的大小吧 04/17 13:18

推 KyotoAnime: 第一改變大小不叫reshape 是resize reshape是面積不 04/17 16:56

→ KyotoAnime: 變形狀改變 04/17 16:56

推 KyotoAnime: 第二他回歸出的東西就是bb 應該不需要resize 如果res 04/17 16:59

→ KyotoAnime: ize要怎摸做 bilinear? 但裡面除了bb的座標還有信心 04/17 16:59

→ KyotoAnime: 機率 bilinear會很怪沒有resize的意義 04/17 16:59

→ leoloveivy: 還是我打成這樣會造成誤會 04/17 17:43

→ leoloveivy: 應該說你predict出來的都不要動 04/17 17:43

→ leoloveivy: 然後label因為已經normalize 04/17 17:43

→ leoloveivy: 所以乘上你predict W H之後 04/17 17:43

→ leoloveivy: 就算BEST OVERLAPPING在哪個ANCHOR BOX之後在做成GT 04/17 17:43

→ leoloveivy: 會像這樣 predict =p 04/17 17:43

→ leoloveivy: gt=[batch,p_w ,p_h,bestanchor,:]=xywh 04/17 17:43

→ leoloveivy: wh該取log就取 04/17 17:43

→ leoloveivy: xy改以grid為中心就做 04/17 17:43

→ leoloveivy: 我的理解是這樣有錯再指正感謝 04/17 17:44

推 goldflower: multiscale training的部分出來的feature map就不是 04/17 18:57

→ goldflower: 13x13囉他每次採取不同scale時都會對應不同size 04/17 18:57

→ goldflower: 從320 - 608分別對應10 - 19 在論文裡有這塊 04/17 18:58

推 goldflower: 還是我搞錯你要問的意思XD 04/17 19:01

推 goldflower: 喔喔我看到你回文了請忽略我上述 04/17 19:08

推 goldflower: 他的loss的確是照grid size去調整的 04/17 19:31

→ goldflower: 所以我是認為他前面的darknet19在multi-scale 04/17 19:32

→ goldflower: training那邊有點像multi-task learning中的shared 04/17 19:32

→ goldflower: layer 但是後面分別對應不同的loss計算方式 04/17 19:32

謝謝g大，我想知道的就是這個，我直接去github看別人的程式碼，input size 320 ~ 608(32的倍數) 對應到算loss 的 grid size 也會跟著改變 10 ~ 19 這樣真的很感謝上面各位大大為小弟解惑，感謝你們! ※ 編輯: NMOSFET (1.173.30.241), 04/17/2018 22:11:17 ※ 編輯: NMOSFET (1.173.30.241), 04/17/2018 22:15:17

→ goldflower: 讚讚想問你看哪個github有所有步驟都實作出來的啊XD 04/18 16:02

→ NMOSFET: https://github.com/leetenki/YOLOv2 04/23 20:07

→ NMOSFET: g大抱歉，現在才看到妳的留言 04/23 20:07

→ goldflower: 這好像蠻精美的XD 感謝分享 04/24 13:15