→ roccqqck: 這種事不是常常發生嗎 07/31 19:37
推 LP9527: 偷偷跟你說,我鄰居的小孩寫了300題理化,期中考30分 07/31 20:49
→ rfvcxswed: 你datasets的size不一樣的話, 沒辦法比 07/31 21:14
→ rfvcxswed: 你得到的test error只是對於真正test error的估計, 07/31 21:15
→ rfvcxswed: test data size越大, test error的估計會越準確. 07/31 21:15
推 moodoa3583: overfitting?你acc.的變化是如何? 08/01 01:07
推 TitanEric: stratified sampling嗎 08/01 12:07
→ TitanEric: 你有做上面的事嗎 08/01 12:07
推 germun: 表示你取的資料特徵不夠好 08/01 14:02
推 NikolaTesla: 應該因爲你新資料的特徵分佈跟訓練資料不同。一個是 08/01 17:23
→ NikolaTesla: 擴大訓練資料的分佈範圍。另一個是更好的特徵擷取。 08/01 17:23
推 yuasa: 所以你要做cross validation、調參數,甚至試試其他algorit 08/01 20:59
→ yuasa: hm阿。也有可能sample不夠或沒有代表性。高度fit training 08/01 21:02
→ yuasa: dataset不代表就能精準預測training dataset以外的數據 08/01 21:02
→ Starcraft2: overfitting 重新作train_test_split 也可以稍微看 08/03 10:40
→ Starcraft2: 一下你的那300個和30個資料是不是長得不太一樣 08/03 10:41
→ Starcraft2: 另外看看能不能增加資料量到1000以上的量級 幾百頗少 08/03 10:41
→ aassdd926: 這就是要開始做EDA的節奏 08/04 00:04
推 a78998042a: 簡單的說,你訓練集長的樣子,跟測試集差很多,就是兩 08/04 13:14
→ a78998042a: 個資料集分佈差異大。要嘛就是你樣本沒抽好,要嘛就是 08/04 13:14
→ a78998042a: 資料是有時間性的。 08/04 13:14
推 aidansky0989: 你的處理是怎樣處理,下採樣或過採樣的話,你有99.9 08/04 15:18
→ aidansky0989: 9%機率是過擬合 08/04 15:18
推 erre: 掰陳都是一直調參數調出來,你參數調的不夠多 09/02 11:10