看板 DataScience 關於我們 聯絡資訊
問題類別: CNN 問題內容: 請問各位大大 YOLOV2 的架構因為沒有全連接層(都用捲積層取代), 所以在訓練的時候,可以輸入任意大小的圖片做訓練 但輸入任意大小的圖片,經過整個模型, 算到最後的 feature map 大小不是會不一樣嗎? 而 YOLOV2 最後的feature map 大小是 13*13*125(125是5個bbox的資訊) 再拿13*13*125的 feature map 去算 detection 的 loss, 那這樣怎麼會對得起來? 還是說會根據最後一層的 feature map 大小去調整對應的 loss ? 小弟一直卡在這邊, 能否請各位大大幫忙解惑一下, 感恩! 論文名稱:YOLO9000: Better, Faster, Stronger -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 163.18.104.168 ※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1523859524.A.530.html
jackwang01: 記得沒錯的話他有做resize的動作04/16 14:26
resize 是指 loss 架構嗎? ※ 編輯: NMOSFET (163.18.104.168), 04/16/2018 15:05:41 ※ 編輯: NMOSFET (163.18.104.168), 04/16/2018 15:59:53 ※ 編輯: NMOSFET (163.18.104.168), 04/16/2018 16:05:15
hl4: 進到model之前可能先resize過了04/16 17:07
OnePiecePR: 應該就是ㄧ二樓的講法。前端進入麻豆前 resize, 作出104/16 18:14
OnePiecePR: 3*13的 grids 才能 meet model 的處理。04/16 18:14
f496328mm: resize 是指縮放圖片的大小 例如 640*320 - > 13*1304/16 22:10
那請問一下,同樣的圖片,不同解析度,一張是1600*1600,另一張800*800,兩張圖片同 樣resize變成416*416,解析度的品質 一樣嗎 ※ 編輯: NMOSFET (1.175.73.141), 04/16/2018 23:51:42
KyotoAnime: 呃 前者也許比較好一點點吧 但這幾乎不會是個issue04/17 00:34
jameszhan: 解析度變怎樣沒有考慮的必要 因為不resize連餵都不能04/17 01:25
jameszhan: 餵04/17 01:25
jameszhan: 另外能輸入任意大小是因為有resize 跟有沒有全連接層無04/17 01:27
jameszhan: 關吧04/17 01:27
jameszhan: 建議再看一下神經網路裡矩陣運算的方式04/17 01:29
Yolov2是每10個epoch更改(resize)輸入圖片的維度,但CNN detection 架構是不變的, 我想問的是,最後一個feature map 大小不一樣,是怎麼算LOSS
KyotoAnime: 上面幾樓好像怪怪的 yolo確實有resize 但yolov2 可沒04/17 02:07
KyotoAnime: 有04/17 02:07
KyotoAnime: 不 應該說yolov2的resize是故意讓他變得不一樣大小04/17 02:08
KyotoAnime: Fc layer本來就會限制input dimension conv layer就04/17 02:09
KyotoAnime: 不受限04/17 02:09
KyotoAnime: 至於原po說的loss function需要調整這件事04/17 02:09
KyotoAnime: 我是沒仔細看啦 不過loss function通常是sigma 你的04/17 02:12
KyotoAnime: 圖像變了 sigma項數就改變了而已 在實作上甚至不用改c04/17 02:12
KyotoAnime: ode 想想numpy.sum()不管有幾個element寫法也都是一04/17 02:12
KyotoAnime: 樣 04/17 02:12
謝謝k大,我在想說最後一個feature map 會不會 reshape成13*13 *125 還是 不 reshap e 直接 ?*?*125 丟進loss 去算
EGsux: 如果800*800會變成416*416 那1600*800 會變成832*416 13*1304/17 07:03
EGsux: 變26*13 這樣會不會比較好懂04/17 07:03
所以意思是說 一張圖片分成26*13 grid 還是 兩組13*13 grid 去算Loss
leoloveivy: 原po是說multiscale trainging 嗎04/17 10:48
leoloveivy: 反正label都是0-1之間04/17 10:48
leoloveivy: 所以其實還會有一個label 轉換04/17 10:48
leoloveivy: 看你feature map w h多少做轉換04/17 10:48
leoloveivy: 那這樣就可以算loss04/17 10:48
leoloveivy: detection 跟classfication不太一樣04/17 10:52
leoloveivy: resize再進去一定有差04/17 10:52
沒錯就是 multiscale trainging ,轉換的意思是轉成13*13嗎? ※ 編輯: NMOSFET (218.174.81.46), 04/17/2018 11:26:19 ※ 編輯: NMOSFET (218.174.81.46), 04/17/2018 12:41:20 ※ 編輯: NMOSFET (218.174.81.46), 04/17/2018 12:52:40
leoloveivy: 應該是轉換你feature map的大小吧 04/17 13:18
KyotoAnime: 第一改變大小不叫reshape 是resize reshape是面積不 04/17 16:56
KyotoAnime: 變 形狀改變 04/17 16:56
KyotoAnime: 第二 他回歸出的東西就是bb 應該不需要resize 如果res 04/17 16:59
KyotoAnime: ize要怎摸做 bilinear? 但裡面除了bb的座標 還有信心 04/17 16:59
KyotoAnime: 機率 bilinear會很怪 沒有resize的意義 04/17 16:59
leoloveivy: 還是我打成這樣會造成誤會 04/17 17:43
leoloveivy: 應該說你predict出來的都不要動 04/17 17:43
leoloveivy: 然後label因為已經normalize 04/17 17:43
leoloveivy: 所以乘上你predict W H之後 04/17 17:43
leoloveivy: 就算BEST OVERLAPPING在哪個ANCHOR BOX之後在做成GT 04/17 17:43
leoloveivy: 會像這樣 predict =p 04/17 17:43
leoloveivy: gt=[batch,p_w ,p_h,bestanchor,:]=xywh 04/17 17:43
leoloveivy: wh該取log就取 04/17 17:43
leoloveivy: xy改以grid為中心就做 04/17 17:43
leoloveivy: 我的理解是這樣有錯再指正感謝 04/17 17:44
goldflower: multiscale training的部分出來的feature map就不是 04/17 18:57
goldflower: 13x13囉 他每次採取不同scale時都會對應不同size 04/17 18:57
goldflower: 從320 - 608分別對應10 - 19 在論文裡有這塊 04/17 18:58
goldflower: 還是我搞錯你要問的意思XD 04/17 19:01
goldflower: 喔喔我看到你回文了 請忽略我上述 04/17 19:08
goldflower: 他的loss的確是照grid size去調整的 04/17 19:31
goldflower: 所以我是認為他前面的darknet19在multi-scale 04/17 19:32
goldflower: training那邊有點像multi-task learning中的shared 04/17 19:32
goldflower: layer 但是後面分別對應不同的loss計算方式 04/17 19:32
謝謝g大,我想知道的就是這個,我直接去github看別人的程式碼,input size 320 ~ 608(32的倍數) 對應到算loss 的 grid size 也會跟著改變 10 ~ 19 這樣 真的很感謝上面各位大大為小弟解惑,感謝你們! ※ 編輯: NMOSFET (1.173.30.241), 04/17/2018 22:11:17 ※ 編輯: NMOSFET (1.173.30.241), 04/17/2018 22:15:17
goldflower: 讚讚 想問你看哪個github有所有步驟都實作出來的啊XD 04/18 16:02
NMOSFET: https://github.com/leetenki/YOLOv2 04/23 20:07
NMOSFET: g大抱歉,現在才看到妳的留言 04/23 20:07
goldflower: 這好像蠻精美的XD 感謝分享 04/24 13:15