作者ruthertw (督人無數就是我)
看板DataScience
標題[問題] 除了交叉驗證,還有哪些方法可證明over-fi
時間Sat Apr 23 23:32:30 2022
- 問題: 當你想要問問題時,請使用這個類別。
除了交叉驗證,
還有哪些方法可以良好且嚴謹的證明over-fitting的存在?
作業系統:(ex:mac,win10,win8,win7,linux,etc...)
Ubuntu
問題類別:(ex:ML,SVM,RL,DL,RNN,CNN,NLP,BD,Vis,etc...)
驗證資料方法,Cross Validation
使用工具:(ex:python,Java,C++,tensorflow,keras,MATLAB,etc...)
python
問題內容:
指導教授對於驗證資料,Cross Validation來顯示over-fitting的存在很不滿意,
要我用其他驗證方法,
但是其他evaluation metrics方法並不是很直覺地拿能來驗證over-fitting的存在.
調整過datasets,和換過模型,調整參數數量,batch sizes,learning rate,...
等等論文裡常用的方法.
跑了所有的實驗結果(包含evaluation metrics方法)給教授看後,
他依然不滿意,要我自己提出嚴謹能證明over-fitting的存在.
我請他給方向或是建議,
他說你自己的研究自己做.
...
想請問還有哪些方法可以良好嚴謹的證明over-fitting的存在?
和調配模型的方法?
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 180.217.247.82 (臺灣)
※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1650727952.A.476.html
※ 編輯: ruthertw (180.217.247.82 臺灣), 04/23/2022 23:40:17
→ wtchen: 看不懂你的問題,overfit不就是test error止跌回升 04/24 02:22
→ wtchen: 跟你調的那些參數有啥關係 04/24 02:23
推 yiche: 一樓應該是誤會了 交叉驗證最簡單像是k-fold做出k個組驗證 04/24 11:27
→ yiche: 集取平均,在挑參數(model selection)的同時,本身就有避免 04/24 11:27
→ yiche: over fitting 的效果了,就是為了模型可以泛化,才考量k組 04/24 11:27
→ yiche: 的 04/24 11:27
→ chang1248w: linear regression會檢查residual 和理論值一不一樣 04/24 11:30
→ chang1248w: 要推到神經網路上有些距離 04/24 11:31
推 yiche: nn的參數隨手都成千數百萬,高維度的loss是超平面,沒辦法 04/24 11:56
→ yiche: 繪出說明目前的情況是overfitting,通常都是畫出底下的圖 04/24 11:56
→ yiche: 來看而已 04/24 11:56
→ Sfly: 盲測啊 04/24 16:09
推 wtchen: 一般就是看loss跟acc趨勢來證明overfit 04/24 21:04
→ wtchen: k-fold幫助泛化的前提,一是資料分佈夠均勻,不會有其中 04/24 21:09
→ wtchen: 幾折表現特別奇怪,二是能達到像隨機森林那樣的效果 04/24 21:10
→ wtchen: (不然效果可能近似純裝袋法) 04/24 21:11
→ wtchen: 這可能要稍微用dropout 04/24 21:12
→ wre880223: Learning curve呢? 04/25 10:36