[問題] 除了交叉驗證,還有哪些方法可證明over-fi

作者ruthertw (督人無數就是我)

看板DataScience

標題[問題] 除了交叉驗證,還有哪些方法可證明over-fi

時間Sat Apr 23 23:32:30 2022

- 問題: 當你想要問問題時，請使用這個類別。除了交叉驗證, 還有哪些方法可以良好且嚴謹的證明over-fitting的存在? 作業系統:(ex:mac,win10,win8,win7,linux,etc...) Ubuntu 問題類別:(ex：ML,SVM,RL,DL,RNN,CNN,NLP,BD,Vis,etc...) 驗證資料方法,Cross Validation 使用工具:(ex:python,Java,C++,tensorflow,keras,MATLAB,etc...) python 問題內容: 指導教授對於驗證資料,Cross Validation來顯示over-fitting的存在很不滿意, 要我用其他驗證方法, 但是其他evaluation metrics方法並不是很直覺地拿能來驗證over-fitting的存在. 調整過datasets,和換過模型,調整參數數量,batch sizes,learning rate,... 等等論文裡常用的方法. 跑了所有的實驗結果(包含evaluation metrics方法)給教授看後, 他依然不滿意,要我自己提出嚴謹能證明over-fitting的存在. 我請他給方向或是建議, 他說你自己的研究自己做. ... 想請問還有哪些方法可以良好嚴謹的證明over-fitting的存在? 和調配模型的方法? -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 180.217.247.82 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1650727952.A.476.html ※ 編輯: ruthertw (180.217.247.82 臺灣), 04/23/2022 23:40:17

→ wtchen: 看不懂你的問題，overfit不就是test error止跌回升 04/24 02:22

→ wtchen: 跟你調的那些參數有啥關係 04/24 02:23

推 yiche: 一樓應該是誤會了交叉驗證最簡單像是k-fold做出k個組驗證 04/24 11:27

→ yiche: 集取平均，在挑參數(model selection)的同時，本身就有避免 04/24 11:27

→ yiche: over fitting 的效果了，就是為了模型可以泛化，才考量k組 04/24 11:27

→ yiche: 的 04/24 11:27

→ chang1248w: linear regression會檢查residual 和理論值一不一樣 04/24 11:30

→ chang1248w: 要推到神經網路上有些距離 04/24 11:31

推 yiche: nn的參數隨手都成千數百萬，高維度的loss是超平面，沒辦法 04/24 11:56

→ yiche: 繪出說明目前的情況是overfitting，通常都是畫出底下的圖 04/24 11:56

→ yiche: 來看而已 04/24 11:56

→ yiche: https://i.imgur.com/Dmd9ldT.gif 04/24 11:56

→ Sfly: 盲測啊 04/24 16:09

推 wtchen: 一般就是看loss跟acc趨勢來證明overfit 04/24 21:04

→ wtchen: k-fold幫助泛化的前提，一是資料分佈夠均勻，不會有其中 04/24 21:09

→ wtchen: 幾折表現特別奇怪，二是能達到像隨機森林那樣的效果 04/24 21:10

→ wtchen: （不然效果可能近似純裝袋法） 04/24 21:11

→ wtchen: 這可能要稍微用dropout 04/24 21:12

→ wre880223: Learning curve呢？ 04/25 10:36