→ lycantrope: CrossEntropyLoss,output應該給digits不用取softmax 04/29 17:57
謝謝大大提供意見
試著照大大提供的資訊更改,雖然前幾個epoch裡loss有在下降,但是大概第4~5個epoch開始就一樣沒有再下降了
accuracy也是在50%左右變動
大大會這麼建議應該是因為pytorch的crossentropyloss會在內部做一次softmax的緣故吧
滿詭異的,剛剛試著用sgd但是取消softmax而直接用輸出來跑
一開始以為沒有變化,但後來發現準確率有微幅上升
30個epochs後accuracy從50%升到61%
推 st1009: 我有用adam訓練resnet50並且成功,resnet內含有類似VGG的 04/29 18:15
推 st1009: 架構,且參數遠大於VGG 有需要我可以分享相關程式 04/29 18:16
可以的話超感謝,請問也是用pytorch寫的嗎?
resnet是用來解決梯度消失,正好可以拿來對照,也很好奇分類項目到底會不會影響梯度消失的程度
這幾天正在準備用整個food-101做分類訓練(101個分類)來比較結果
(準備aka把東西傳到google雲端,一個epoch跑20分鐘在自己電腦上有點吃不消,目前已經傳了第二天了)
※ 編輯: fragmentwing (42.77.97.142 臺灣), 04/29/2023 18:40:09
→ chang1248w: adam和大參數處不來純屬胡言亂語 04/29 18:59
→ chang1248w: 你要傳資料建議zip之後上kaggle,然後用colab或者 04/29 19:03
→ chang1248w: kaggle notebook 04/29 19:03
→ chang1248w: 分類項目比較會影響梯度的大概就imbalance label 04/29 19:06
→ chang1248w: 導致各類梯度期望值不同 04/29 19:07
→ chang1248w: sgd欠調教所以上下限高,adam懶人但發起顛來挺可怕的 04/29 19:12
→ chang1248w: 所以後來的論文都會上adam與sgd的比較 04/29 19:12
→ chang1248w: 算是一種穩定而強的背書 04/29 19:12
→ chang1248w: adam有聽說的問題就LLM在batchsize大於128之後,收斂 04/29 19:17
→ chang1248w: 速度沒啥差異,所以就有神仙提出了LAMB optimizer, 04/29 19:17
→ chang1248w: 然後在他們新的資料中心用十秒從頭訓練了一遍 04/29 19:17
→ fragmentwing: 感謝建議!!待會來試試看 04/29 19:19
→ fragmentwing: imbalance 的話雖然兩邊都是1000筆資料 可能是我bat 04/29 19:19
→ fragmentwing: ch太小造成的? 04/29 19:19
→ chang1248w: 期望值一樣就沒問題 04/29 19:24
→ fragmentwing: 既然是胡言亂語待會回來修個文加註免得誤導別人 04/29 19:24
→ chang1248w: stack flow下面有指正 04/29 19:29
→ chang1248w: 看超過三年前的文章就要小心 04/29 19:29
→ fragmentwing: why doesn't the accuracy ……那篇沒錯吧 我倒是看 04/29 20:22
→ fragmentwing: 到好幾個說改用sgd的建議但沒看到指正的評論 還是大 04/29 20:22
→ fragmentwing: 大指的是要做weight initialization的事? 04/29 20:22
※ 編輯: fragmentwing (42.77.97.142 臺灣), 04/29/2023 21:26:43
推 st1009: 其實我也很想說他胡言亂語,我家resnet101也是用adam這還 04/29 21:30
推 st1009: 不夠大嗎,只是怕他說的大是ChatGPT之類的...... 04/29 21:30
→ st1009: 我的code不想公開,明天整理過,私信給你 04/29 21:31
謝謝大大,如果幾天後有找到真正的原因會再上來改文
※ 編輯: fragmentwing (42.77.97.142 臺灣), 04/29/2023 21:51:36
※ 編輯: fragmentwing (42.77.97.142 臺灣), 04/29/2023 22:32:50
推 iHaveAPen: 你如果了解一下adam在幹嘛就知道處不來有多荒唐 05/06 16:56
推 srarod: Adam收斂應該不會有大問題,應該優先看一下是不是框架有 02/02 13:24
→ srarod: 問題。Adam主要的問題應該是generalisation,要又快又泛 02/02 13:24
→ srarod: 化一點可以考慮AdamW 02/02 13:24