各位python先進好
小弟用sk-learn的validation_curve找最佳參數時遇到一個問題:
我跑出來的training curve有時高時低的現象,並不像範例一樣只隨參數越大準確度越高
請問是否可以不要理會training curve的下降只要確保validation curve不下降就能代表不over-fitting?
這樣可以取到準確度更高的結果
p.s. 以下是小弟找到的相關資訊
在sk-learn官網官網看到的validation_curve資料只有說
train和validation的準確度都低代表under-fitting
train準確度高validation低代表over-fitting
train準確度低validation高通常不可能
莫凡老師所做的示範中training curve只有上升
所以只提到要找validation curve不下降前的值(代表不over-fitting)
下面為小弟跑出來的圖
謝謝大家!
http://i.imgur.com/HqMOrNS.jpg
-----
Sent from JPTT on my HTC_A9u.
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 140.112.4.192
※ 文章網址: https://www.ptt.cc/bbs/Python/M.1515659607.A.046.html
※ 編輯: fig498 (140.112.4.192), 01/11/2018 16:56:02
→ mikapauli: 一般來說取兩者較低的做判斷?01/11 21:27
推 TuCH: 數據量多少啊 數據量太少也有機會造成偏差01/12 00:29
推 EGsux: 你的數據量是?01/12 12:50
推 EGsux: 順便用一下k fold01/12 12:53
推 EGsux: 你用甚麼演算法01/12 12:57
數據量目前只有183組,使用的是SVC
已得到解答,先前小弟誤解了,並不會隨著參數調高準確度跟著變高,要找兩個曲線都有不
推 EGsux: 正常來說不管你怎調 cv都不會比training高 這種小data你要01/12 13:19
→ EGsux: 用 k fold做 cross validation01/12 13:19
感謝前輩!
※ 編輯: fig498 (223.140.1.173), 01/12/2018 18:02:04