[問題] 斷崖式模型損壞

作者clansoda (小笨)

看板DataScience

標題[問題] 斷崖式模型損壞

時間Sun Oct 4 15:10:40 2020

各位好，前陣子拿到imagenet因此想試試看能不能重現alexnet的表現我目前的問題是前面10幾個epochs都能正常的訓練我的error是用BCE reduce = sum 第一個epoch訓練完之後training error是6點多但是10幾個epochs之後會突然出現error從3點多暴跌到100 多的情況 accuracy也從top5 = 50多%變成0% 之前訓練其他模型沒有遇過這種情況想請問有甚麼可能會遇上這樣斷崖式的模型崩壞嗎 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 220.134.15.129 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1601795443.A.AA6.html

推 wtchen: 感覺上是梯度下降走的太快，不小心滑出Loss local min？ 10/04 18:28

→ clansoda: wt大，我使用的是ranger optimizer lr=1e-4 10/04 20:10

→ clansoda: 我的想法是如果學習率太大，他是不是應該早點崩掉 10/04 20:11

→ clansoda: 而不是已經走了10幾個epochs才壞掉呢? 10/04 20:11

推 wtchen: 學習率太高是有可能先降後崩掉 10/04 21:07

→ wtchen: https://zhuanlan.zhihu.com/p/35775606 10/04 21:07

→ wtchen: 若不能降學習率，加入一些懲罰項或normalization 10/04 21:09

→ wtchen: 也許能幫助模型穩定 10/04 21:09

推 DiscreteMath: 感覺很像是learning rate問題,可以做learning rate 10/09 21:57

→ DiscreteMath: scheduling,或是gradient clipping. 訓練到後期常常 10/09 21:57

→ DiscreteMath: lr會設到非常低 10/09 21:57

→ DiscreteMath: 防止跳出或是走不到local min 10/09 21:57

→ chang1248w: 感覺是pipline有髒東西或者你code有錯 10/14 01:14