看板 DataScience 關於我們 聯絡資訊
- 問題: 當你想要問問題時,請使用這個類別。 除了交叉驗證, 還有哪些方法可以良好且嚴謹的證明over-fitting的存在? 作業系統:(ex:mac,win10,win8,win7,linux,etc...) Ubuntu 問題類別:(ex:ML,SVM,RL,DL,RNN,CNN,NLP,BD,Vis,etc...) 驗證資料方法,Cross Validation 使用工具:(ex:python,Java,C++,tensorflow,keras,MATLAB,etc...) python 問題內容: 指導教授對於驗證資料,Cross Validation來顯示over-fitting的存在很不滿意, 要我用其他驗證方法, 但是其他evaluation metrics方法並不是很直覺地拿能來驗證over-fitting的存在. 調整過datasets,和換過模型,調整參數數量,batch sizes,learning rate,... 等等論文裡常用的方法. 跑了所有的實驗結果(包含evaluation metrics方法)給教授看後, 他依然不滿意,要我自己提出嚴謹能證明over-fitting的存在. 我請他給方向或是建議, 他說你自己的研究自己做. ... 想請問還有哪些方法可以良好嚴謹的證明over-fitting的存在? 和調配模型的方法? -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 180.217.247.82 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1650727952.A.476.html ※ 編輯: ruthertw (180.217.247.82 臺灣), 04/23/2022 23:40:17
wtchen: 看不懂你的問題,overfit不就是test error止跌回升 04/24 02:22
wtchen: 跟你調的那些參數有啥關係 04/24 02:23
yiche: 一樓應該是誤會了 交叉驗證最簡單像是k-fold做出k個組驗證 04/24 11:27
yiche: 集取平均,在挑參數(model selection)的同時,本身就有避免 04/24 11:27
yiche: over fitting 的效果了,就是為了模型可以泛化,才考量k組 04/24 11:27
yiche: 的 04/24 11:27
chang1248w: linear regression會檢查residual 和理論值一不一樣 04/24 11:30
chang1248w: 要推到神經網路上有些距離 04/24 11:31
yiche: nn的參數隨手都成千數百萬,高維度的loss是超平面,沒辦法 04/24 11:56
yiche: 繪出說明目前的情況是overfitting,通常都是畫出底下的圖 04/24 11:56
yiche: 來看而已 04/24 11:56
yiche: https://i.imgur.com/Dmd9ldT.gif 04/24 11:56
Sfly: 盲測啊 04/24 16:09
wtchen: 一般就是看loss跟acc趨勢來證明overfit 04/24 21:04
wtchen: k-fold幫助泛化的前提,一是資料分佈夠均勻,不會有其中 04/24 21:09
wtchen: 幾折表現特別奇怪,二是能達到像隨機森林那樣的效果 04/24 21:10
wtchen: (不然效果可能近似純裝袋法) 04/24 21:11
wtchen: 這可能要稍微用dropout 04/24 21:12
wre880223: Learning curve呢? 04/25 10:36