[問題] Imbalanced dataset使用SOMTE求教

作者boggy ()

看板DataScience

標題[問題] Imbalanced dataset使用SOMTE求教

時間Fri May 6 22:41:18 2022

大家好我正在做一個關於imbalanced data的分析正樣本大概1%，feature有95個，data共6500筆左右簡單的特徵處理後對X_train 我先用sklearn的SMOTENC來合成正樣本(因為feature含nominal variable故用SMOTENC) 之後先簡單用logistic regression來fit X_test 結果居然發現使用SMOTENC後ROCAUC/PRAUC/F1那些的居然都變差了...... 這根本顛覆我的認知了啊@@" 可是查了程式碼和網路上爬了一堆文也還不知道是為什麼? (後來再try其他模型也都是一樣結果) 想請問各位這種結果是有可能的嗎? 已經想了一整天了QQ 感謝大家看完~ -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 36.234.122.138 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1651848080.A.D27.html

→ chang1248w: 你有檢查你對象的normality 和countinuity? 05/07 01:38

推 cowbadma5566: 看看混淆矩陣變差的是哪裡 05/07 04:21

推 KuChanTung: 試試設定class weight 然後使用bagging 來跑 logistic 05/07 06:39

→ KuChanTung: regression 05/07 06:39

推 carolian: 你列出的metrics變差的幅度大嗎？smote後看classificat 05/07 06:56

→ carolian: ion report 裡面positive class的recall應該會比原本高 05/07 06:56

→ carolian: ，其他metrics降低其實蠻正常 05/07 06:56

推 KindWei: 樓上正解，oversampling 的意義在於強化模型辨認少樣本 05/07 13:09

→ KindWei: 的能力，還有 oversampling 本質上還是增加了資料的 nois 05/07 13:09

→ KindWei: e ，如果你 oversample 過多樣本，反而讓 model 學到更多 05/07 13:09

→ KindWei: 髒東西，反而降低原本辨認多樣本的能力 05/07 13:09

→ chang1248w: 長知識 05/07 13:48

→ boggy: 感謝大家，真的長知識了 05/08 00:09

→ boggy: https://imgur.com/WAmPWbk 05/08 00:09

→ boggy: 做完之後的確precision上升，RF沒變曾該是模型本身就能分 05/08 00:10

→ boggy: 不平衡數據，貝氏變差應該就像前面大大說的nosie增多 05/08 00:11

推 VIATOR: 我過去的經驗SMOTE也變差(不過變差幅度沒統計顯著差異) 05/10 00:02

→ VIATOR: SMOTE最根本原理是根據knn，但knn不適合高維度的問題 05/10 00:04

→ VIATOR: 所以我認為SMOTE對高維度的問題沒太大的幫助 05/10 00:04