精華區beta DataScience 關於我們 聯絡資訊
我們把數據分割成三等分,每次取一份出來做validation,另外兩份作trian來生成模型,這 樣每一次我就會生成三個模型,給出三個performance,然後我拿三個performance來取平均 作為總的performance,以衡量我模型的好壞. ======================= 看到這個就是我長久一來一直卡住的地方 我們資料收集可以假設一堆資料分布差不多 可是當我們切成train val test 我會比較困惑 當n flod後 資料分堆後 distance差異明顯會變高 分好的set 跟一開始的 差異在於data量少了 所以各個set distance反而變明顯 那在deep learning中又可以把這種高維度的小差距分的很好 那這樣inference的performance不就完全取決於我的training set上 我拿他去平均各個performance 這樣真的是可以知道模型好壞嗎? 假設我出來3個 0.9 0.9 0.2那這樣的話 我是不是要回頭把我的data preparing 再做好 會比去調model更好 或者再去把n調大再試試看avg performance 希望大家指點 不知道哪裡觀念錯卡住 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 122.146.250.197 ※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1522121811.A.03B.html
goldflower: 其實你好像講完了? 如果你資料量夠有做好shuffle03/27 12:12
goldflower: 照理說在model正常下這麼大的差距很難發生03/27 12:13
舉的例子是有點誇張 因為我不太確定就算我們去test deploy應該還是會拿分數高的去嗎? 所以說遇到這個要回去data preparing 還是把dataset fixed先調整model 哪個先優先做才會比較好
goldflower: 資料量少的話你甚至可以開leave-one-out下去03/27 12:14
※ 編輯: leoloveivy (223.139.173.93), 03/27/2018 15:47:33
goldflower: 一般來說應該都是先弄好前處理再去調整model03/27 16:20
goldflower: 畢竟你資料不好你就不知道model表現怎麼樣了03/27 16:21
ok thanks ※ 編輯: leoloveivy (118.171.201.140), 03/27/2018 20:39:09