作者qwertad (qwertad)
看板Python
標題[問題] train 不平衡資料的方法
時間Wed Mar 28 04:04:12 2018
是這樣的最近想自己做一些練習
於是網路上找了一個dataset,
它的lebal 是1跟0 但是資料不平衡
1:0約2:8
一開始用決策樹,隨機森林跑acc都大概8成跟我都猜0差不多,precision 爆爛
大概知道有兩種做法
1.從資料下手
我試了down _sampled ,smote
2.從演算法下手
我試了xg boost 還有用keras 蓋神經網路
怎麼train 在測試集上的表現大概就是
acc :0.83 ,
precision (預測1正確):0.7
recall (1被預測出來的機率):0.3
的水準,precision 有上升到0.7
想請問有什麼方法是可以將準確率,precision ,recall再提高的,特徵工程有做
資料集是用kaggle 上的信用卡違約
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 49.216.240.133
※ 文章網址: https://www.ptt.cc/bbs/Python/M.1522181054.A.37C.html
推 sean50301: probability calibration? 03/28 11:42
推 aszx4510: 可以參考隔壁版 DataScience 最近才討論過這個問題 03/29 01:20