推 aszx4510: 感謝教學 獲益良多 03/07 05:58
推 stoltzman: 感謝大大分享!獲益良多! 03/07 07:18
推 vfgce: kaggle的測試集,通常不附target..沒辦法用cross-validation 03/07 07:30
→ vfgce: emsemble learning通常也沒有比單一模型好很多.. 03/07 07:32
推 vfgce: pandas真的要好好學,但sklearn最大問題在於對類別屬性的 03/07 07:37
→ vfgce: 處理不佳. 03/07 07:37
→ vfgce: pandas已經有category,但sklearn還無法使用 03/07 07:39
→ vfgce: 目前只有Y能夠以分類處理,X的部分都轉成int,然後被轉成 03/07 07:42
→ pipidog: v大,同意,sklearn跟pandas真的整合度很糟糕... 03/07 07:43
→ pipidog: 但可見未來似乎也不太可能改善,只能靠耐心處理了 03/07 07:43
→ vfgce: flaot去處理了.這是頗不合理的處理方式.... 03/07 07:44
→ vfgce: 用過R的大概知道我說的是什麼..這部分希望sklearn能否直接 03/07 07:45
→ vfgce: 支援pandas就方便多了. 03/07 07:45
推 Luluemiko: 推 03/07 09:33
推 leo021566: 推 03/07 11:32
推 goldflower: ensemble現在應該一堆都直接無腦XGBoost了XD 03/07 15:58
推 neil987: 不妨玩玩看PCA 03/07 16:03
推 EGsux: 比較好處理 category好的方法就是 one hot 然後pca了 但是 03/07 16:20
→ EGsux: category類用來做 regression也不要太期待accuracy 03/07 16:20
推 EGsux: test set當然沒 target比賽就是那樣 要用 training 來做cv 03/07 17:03
推 vfgce: 所以你有一堆數值和類別混合的data,用python做真的會想XXX 03/07 17:07
→ vfgce: R內建有factor類別,套件也多能配合,用起來方便多了. 03/07 17:08
推 vfgce: 明明sklearn是一個豐富的PACKAGE,當初怎沒將這個考慮進去. 03/07 17:21
推 vfgce: 用上決策樹的感受特別明顯. 03/07 17:23
→ vfgce: ONE HOT 也不是萬靈丹,當屬性含有很多類別時,會製造出更多 03/07 17:25
推 vfgce: 屬性,整個屬性維度又更大. 03/07 17:29
→ vfgce: R內建的FACOTR,套件大多考慮到這一層,用起來方便多了. 03/07 17:31
→ vfgce: 或許SKLEARN 只考慮到配合NUMPY使用,但這問題應該還多人都 03/07 17:32
→ vfgce: 遇到了. 希望後面的版正能修正這個問題... 03/07 17:33
推 cc9i: 髒 這體會有同感 03/07 21:23
推 fischcheng: 受教啦,感謝! 03/08 04:38
推 Raymond0710: 推 03/08 08:28
推 f496328mm: 提供一個關於 category 轉換的方法 03/08 10:51
→ f496328mm: 在kaggle上用過, 效果不錯 03/08 10:51
推 bestchiao: 感謝上面f大分享 很詳細 03/08 16:09
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 101.8.6.231
※ 文章網址: https://www.ptt.cc/bbs/deeplearning/M.1520642760.A.2B2.html
推 NBAPredictor: 小弟不專業 但Lasso在N>P的情況使用到底有什麼意義? 03/10 13:04
→ NBAPredictor: 之前面臨到的情況都是P>>N才會使用到LASSO 03/10 13:05
→ NBAPredictor: 且使用的都是Group Lasso 03/10 13:05
→ NBAPredictor: 1460*79 直覺的作法就是拉Stepwise L2挑Feature 03/10 13:08
→ NBAPredictor: 相關係數 變異數等一次統包都考慮到了 03/10 13:09
→ NBAPredictor: 這篇提到Lasso有什麼特別的用法嗎 03/10 13:09
→ hl4: N和P分別是指什麼? 03/10 15:31
推 seasa2016: 推 03/10 22:10
→ f496328mm: N是data數,p是variable數 03/11 12:42
推 f496328mm: lasso就只是很單純的迴歸+ penalty term,並沒有說p>n 03/11 12:44
→ f496328mm: 才能用 03/11 12:44
推 NBAPredictor: 對啊 可是不知道有什麼好處 03/11 16:47
→ aaaba: 做 selection 的前提不就暗示了存在 sparsity?所以用一下 03/11 16:57
→ aaaba: lasso 也是滿合理的。實務上當然不會那麼理想,就是多個 03/11 16:57
→ aaaba: 方法可以踹看看這樣 03/11 16:57
推 NBAPredictor: 也是 踹看看 03/11 17:13
→ Wush978: LASSO可以壓縮模型,因為參數為0的在怖署時可以刪除 03/11 17:58