[問題] cross validation請益

作者NDEJG (NDE)

看板DataScience

標題[問題] cross validation請益

時間Mon Feb 14 04:11:22 2022

1.使用時機最近在用PointNet去預測植物的特性，老闆不斷要我做cross validation，因為我們的資料數量很少，總共只有450筆，她認為cross validation可以避免因為test set選得不好導致模型有偏誤的結果，但我讀的文章都是在有多個model時，才會用cross validation 來決定哪個模型最適合這個dataset。不知道有沒有版友可以解惑是否是老闆弄錯還是我誤會了什麼。 2.bias, variance 在讀cross validation variants的比較時，我觀察到作者們都會用bias跟variance來評估這個cross validation variant的效果。Ron Kohavi 1995年的文章裡就是以bias及var iance評估到底哪一個variant可以最好地評估一個model。以leave one out cross valid ation為例，他就說是unbiased但有非常大的variance所以這個variant不甚理想。但是這些文章都是以classification為基礎來推導，我想請教若是對regression model用cross validation時，要如何評估bias跟variance呢？總結我不清楚只有一個model時做cross validation的意義何在，以及若要做的話，我該如何選擇哪一種cross validation呢？考慮到我們的樣本數少，老闆認為因為樣本數少，不適合10 fold cross validation，論文大部分以classification來討論，想請教版友該以什麼方法來評估regression的模型。感謝各位的幫忙Q___Q -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 66.253.158.23 (美國) ※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1644783084.A.35F.html

→ wheado: 實際應用上老闆是不在乎var， 02/14 11:01

→ wheado: 準確度數據好看才是真理....02/14 11:01

她現在不在乎，但下個月可能會再回來問我G___G

→ truehero: 老闆不要10 FOLD ,你就用2 FOLD 3 FOLD 5 FOLD02/14 13:21

→ truehero: 找出一個切法能讓 OOF平均最高 ,02/14 13:23

推 ddavid: 不 10-Fold 就給他一個 Leave-one-out 啊 02/14 13:44

她一開始叫我做10fold，現在說10太多，我怕沒個依據她到時候3-10每個都試一次，我真的會畢不了業

→ cs410567cs: 一般都是做5 fold 不過只有450筆不適合做ML DL吧 02/15 13:27

農業資料蒐集不容易，蠻多人都是數據很少還是硬做的，說實話我也覺得太少，但我也是被老闆抓來硬做，沒得商量的。

→ cs410567cs: 另外超過2-3年的文章都是上古文章02/15 13:28

沒看到近幾年有類似的討論，只好考古了 ※ 編輯: NDEJG (66.253.158.26 美國), 02/15/2022 23:44:01

推 f821027: 多個模型的話就是比較cross_val_score去比較平均的mse或02/16 12:19

→ f821027: mae等等哪個低02/16 12:19

→ f821027: 單模的話可以把每個folde的mse或mae都算出來畫成折線圖02/16 12:19

→ f821027: 搭配std判斷資料的robustness02/16 12:19

單模的話是取k組當testing set嗎？

→ f821027: 可以參考下面各種 cv 方法 https://scikit-learn.org/sta02/16 12:24

→ f821027: ble/modules/cross_validation.html02/16 12:24

感謝分享，我有些文章就是從這個頁面找的xD ※ 編輯: NDEJG (128.210.106.49 美國), 02/17/2022 06:58:28

推 f821027: 有點不太確定你說的testing set的意思，我的認知是all d 02/17 15:00

→ f821027: ata 先分成training set 和 testing set，針對training 02/17 15:00

→ f821027: set去做k-fold cross validation 去確保build出來的模型 02/17 15:00

→ f821027: 參數會是最好的，當然fold越多的話模型穩健度會越高， 02/17 15:00

→ f821027: 那這k個fold都會有你放進cross_val_score裡面scoring參 02/17 15:00

→ f821027: 數的指標，看你幾個fold，那這k個fold可以驗證你放的模 02/17 15:00

→ f821027: 型的穩健性，可以透過std判斷 02/17 15:00

→ NDEJG: 了解，感謝大大分享Q_Q 02/18 02:49

推 hsuchengmath: 第二個問題，regression要怎麼計算bias =target lab 03/15 08:01

→ hsuchengmath: el-mean(模型預測出來的) 計算variance=var(模型預 03/15 08:01

→ hsuchengmath: 測出來的) 03/15 08:01

推 hsuchengmath: 這些都是基本統計的內容，回去複習哈哈哈 03/15 08:03