看板 DataScience 關於我們 聯絡資訊
大家好 我正在做一個關於imbalanced data的分析 正樣本大概1%,feature有95個,data共6500筆左右 簡單的特徵處理後 對X_train 我先用sklearn的SMOTENC來合成正樣本(因為feature含nominal variable故用SMOTENC) 之後先簡單用logistic regression來fit X_test 結果居然發現使用SMOTENC後ROCAUC/PRAUC/F1那些的居然都變差了...... 這根本顛覆我的認知了啊@@" 可是查了程式碼和網路上爬了一堆文也還不知道是為什麼? (後來再try其他模型也都是一樣結果) 想請問各位這種結果是有可能的嗎? 已經想了一整天了QQ 感謝大家看完~ -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 36.234.122.138 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1651848080.A.D27.html
chang1248w: 你有檢查你對象的normality 和countinuity? 05/07 01:38
cowbadma5566: 看看混淆矩陣變差的是哪裡 05/07 04:21
KuChanTung: 試試設定class weight 然後使用bagging 來跑 logistic 05/07 06:39
KuChanTung: regression 05/07 06:39
carolian: 你列出的metrics變差的幅度大嗎?smote後看classificat 05/07 06:56
carolian: ion report 裡面positive class的recall應該會比原本高 05/07 06:56
carolian: ,其他metrics降低其實蠻正常 05/07 06:56
KindWei: 樓上正解,oversampling 的意義在於強化模型辨認少樣本 05/07 13:09
KindWei: 的能力,還有 oversampling 本質上還是增加了資料的 nois 05/07 13:09
KindWei: e ,如果你 oversample 過多樣本,反而讓 model 學到更多 05/07 13:09
KindWei: 髒東西,反而降低原本辨認多樣本的能力 05/07 13:09
chang1248w: 長知識 05/07 13:48
boggy: 感謝大家,真的長知識了 05/08 00:09
boggy: https://imgur.com/WAmPWbk 05/08 00:09
boggy: 做完之後的確precision上升,RF沒變曾該是模型本身就能分 05/08 00:10
boggy: 不平衡數據,貝氏變差應該就像前面大大說的nosie增多 05/08 00:11
VIATOR: 我過去的經驗SMOTE也變差(不過變差幅度沒統計顯著差異) 05/10 00:02
VIATOR: SMOTE最根本原理是根據knn,但knn不適合高維度的問題 05/10 00:04
VIATOR: 所以我認為SMOTE對高維度的問題沒太大的幫助 05/10 00:04