推 goldflower: 一種是不要抽樣 把少樣本的error提高 03/19 22:38
推 aa155495: hard example mining 或 focal loss吧 03/20 00:30
推 EGsux: google SMOTE 03/20 02:12
推 NBAPredictor: Boosting的話沒什麼差 不過D跟E基本上沒救了 03/20 07:53
→ NBAPredictor: D跟E或許可以拉KNN來Stacking 03/20 07:54
不好意思 這邊補充一下原文可能沒說清楚的部分
其實原始資料量要比上面舉例大上許多,或許有上百倍大,
因此稀少類別數或許也有數百個
考量計算成本,目前都是先抽樣一小部分來嘗試
下面的回文有提到可以將樣本多的類別切割,再一一和較稀少的類別拼湊訓練
除此之外,不知道有沒有更省資源的抽樣方法能做到差不多的效果呢@@?
→ f496328mm: 乾脆把 CDE 當作一類 如果選到這類 03/20 09:05
→ f496328mm: 再用另一個 model 去 fit 03/20 09:05
我也曾想試試類似的方法,不過還沒看過有人實際上這樣做
不知道有沒有關鍵字、相關文獻或是實作案例可以讓我參考看看?
→ f496328mm: 另外多類不平衡的話 可能要做多個 1 vs all 03/20 09:07
→ f496328mm: 針對不同的case 給不同的 01 邊界 03/20 09:07
→ f496328mm: 舉例來說 A的 case, pred>0.5 =1, <0.5=0 03/20 09:08
→ f496328mm: but E case, pred>0.1=1 pred<0.1=0 03/20 09:08
推 yogi: 在考慮balanced sampling的問題以前,應該先想想看在不同類 03/20 09:19
→ yogi: 別你能容忍的false pos/neg是多高 03/20 09:20
※ 編輯: DennismithJR (118.168.165.55), 03/21/2018 00:51:21
推 goldflower: 我的調error不就超省資源= = 03/21 02:03
推 lucien0410: oversampling to the rescue! 03/21 15:08
推 littleyuan: data augmentation 04/13 11:42