看板 DataScience 關於我們 聯絡資訊
各位好,前陣子拿到imagenet因此想試試看能不能重現alexnet的表現 我目前的問題是前面10幾個epochs都能正常的訓練 我的error是用BCE reduce = sum 第一個epoch訓練完之後training error是6點多 但是10幾個epochs之後會突然出現error從3點多暴跌到100 多的情況 accuracy也從top5 = 50多%變成0% 之前訓練其他模型沒有遇過這種情況 想請問有甚麼可能會遇上這樣斷崖式的模型崩壞嗎 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 220.134.15.129 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1601795443.A.AA6.html
wtchen: 感覺上是梯度下降走的太快,不小心滑出Loss local min? 10/04 18:28
clansoda: wt大,我使用的是ranger optimizer lr=1e-4 10/04 20:10
clansoda: 我的想法是如果學習率太大,他是不是應該早點崩掉 10/04 20:11
clansoda: 而不是已經走了10幾個epochs才壞掉呢? 10/04 20:11
wtchen: 學習率太高是有可能先降後崩掉 10/04 21:07
wtchen: https://zhuanlan.zhihu.com/p/35775606 10/04 21:07
wtchen: 若不能降學習率,加入一些懲罰項或normalization 10/04 21:09
wtchen: 也許能幫助模型穩定 10/04 21:09
DiscreteMath: 感覺很像是learning rate問題,可以做learning rate 10/09 21:57
DiscreteMath: scheduling,或是gradient clipping. 訓練到後期常常 10/09 21:57
DiscreteMath: lr會設到非常低 10/09 21:57
DiscreteMath: 防止跳出或是走不到local min 10/09 21:57
chang1248w: 感覺是pipline有髒東西或者你code有錯 10/14 01:14