Re: [問題] Validation set 到底在做什麼?

作者leoloveivy (cried)

看板DataScience

標題Re: [問題] Validation set 到底在做什麼?

時間Tue Mar 27 11:36:48 2018

我們把數據分割成三等分,每次取一份出來做validation,另外兩份作trian來生成模型,這樣每一次我就會生成三個模型,給出三個performance,然後我拿三個performance來取平均作為總的performance,以衡量我模型的好壞. ======================= 看到這個就是我長久一來一直卡住的地方我們資料收集可以假設一堆資料分布差不多可是當我們切成train val test 我會比較困惑當n flod後資料分堆後 distance差異明顯會變高分好的set 跟一開始的差異在於data量少了所以各個set distance反而變明顯那在deep learning中又可以把這種高維度的小差距分的很好那這樣inference的performance不就完全取決於我的training set上我拿他去平均各個performance 這樣真的是可以知道模型好壞嗎? 假設我出來3個 0.9 0.9 0.2那這樣的話我是不是要回頭把我的data preparing 再做好會比去調model更好或者再去把n調大再試試看avg performance 希望大家指點不知道哪裡觀念錯卡住 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 122.146.250.197 ※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1522121811.A.03B.html

推 goldflower: 其實你好像講完了? 如果你資料量夠有做好shuffle03/27 12:12

→ goldflower: 照理說在model正常下這麼大的差距很難發生03/27 12:13

舉的例子是有點誇張因為我不太確定就算我們去test deploy應該還是會拿分數高的去嗎? 所以說遇到這個要回去data preparing 還是把dataset fixed先調整model 哪個先優先做才會比較好

→ goldflower: 資料量少的話你甚至可以開leave-one-out下去03/27 12:14

※ 編輯: leoloveivy (223.139.173.93), 03/27/2018 15:47:33

推 goldflower: 一般來說應該都是先弄好前處理再去調整model03/27 16:20

→ goldflower: 畢竟你資料不好你就不知道model表現怎麼樣了03/27 16:21

ok thanks ※ 編輯: leoloveivy (118.171.201.140), 03/27/2018 20:39:09