作者outrunner (ot)
看板DataScience
標題Re: [問題] Validation set 到底在做什麼?
時間Wed Mar 28 00:19:08 2018
※ 引述《lucien0410 (lucein)》之銘言:
: 可是可是我的問題沒有回答到 (是我一開始沒問對問題)
不如你來回答問題, 你怎麼知道模型要訓練到什麼時候(epoch size)?
: 換個方式講
: 假設我有兩份已知資料(AB兩份資料)
: A拿來訓練
: B拿來測試
: B的測試結果告訴我們成果到底怎樣 公平的驗證
: B就是終極測試
這樣做當然很好, 但代價也很昂貴.
回到上面的問題, 你需要驗證多少次? 每個epoch驗證一次?
更別提很多時候是沒辦法這樣做的.
(ex. B沒有答案. 有的話我會拿來做訓練)
: 但其實訓練A之前 可以調整很多hyperparameter
: 所以就先把A切成 a b
: 拿a 訓練 b 測試 找尋最佳的hyperparameter
: 找到後 再依這樣的設定訓練A (期待B的測試會最好)
: 但是OpenNMT要求在訓練小寫a時也必須提供val set
: 這就是我的問題了
他就是邊訓練邊測試啊, 不然你怎麼知道訓練得如何了?
其實就是把你想手動做的事情自動化啦.
如果你有看他的說明書:
Validation files are required and used to evaluate
the convergence of the training.
It usually contains no more than 5000 sentences.
第一句就是前面講的.
第二句的意思是做這個很浪費時間. (別誤會, 是學問很大的意思)
然後"找尋最佳的hyperparameter"也不是很重要,
想太多不如先train下去, train久了就有fu了.
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 1.160.95.100
※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1522167550.A.382.html
推 lucien0410: 推 03/28 00:39
推 Murasaki0110: 海豹大大 03/28 00:42
推 Rprogramming: 推數海豹大神 03/28 02:50
推 ACMANIAC: 推海豹大 03/28 02:56
推 lucien0410: 感謝o大 這樣我就懂了 這個val set 的作用就是專門來 03/28 07:51
→ lucien0410: 調 epoch size 03/28 07:51
推 wilson85771: 是數海獅大神! 03/28 16:11
推 goldflower: 你還是沒懂R... 03/28 17:21
推 lucien0410: 哈 gold大 謝謝你特別關心我 我明天再來發文 03/28 17:30
推 walkwall: 推推XD 03/28 17:30
→ lucien0410: 說我懂了什麼 要是再說錯了 你再來幫我打臉 03/28 17:31
→ lucien0410: gold你就是我的validation set阿 !!! 03/28 17:31
推 goldflower: 打臉不敢XD 03/28 17:46
推 lucien0410: g大 ML/DL你懂的一定比我多很多 我就來練功 打臉不痛 03/28 18:02
→ lucien0410: 我臉皮弄厚一點 學到了就是我的 03/28 18:04
→ lucien0410: 這樣應該算gradient descent 的學法吧 03/28 18:05
→ lucien0410: 搖搖晃晃犯了很多錯 不是用一次到位的方式 03/28 18:07
推 goldflower: 哈哈多問很好啊 有問還能釣到田神 說不定之後李宏毅 03/28 21:40
→ goldflower: 老師也來駐版XD 03/28 21:40