推 f496328mm: 主要還是看問題吧 10/14 04:09
→ f496328mm: 遺失值也是一個訊息 不是NA就不理他 10/14 04:09
→ f496328mm: 你要想為何會產生 NA 10/14 04:10
→ f496328mm: 在 ML 的 tree 上 遺失值也能做分析 10/14 04:10
→ f496328mm: 而大多數 ML ,都是從 tree 出發, RF、XGB 等等 10/14 04:11
→ f496328mm: 例如在製程的問題上 NA 是正常的 不能不理他 10/14 04:12
→ dummytrue: 是病歷資料庫的分析...有些項目有做 有些則沒 10/15 20:54
→ dummytrue: 想找出幾個可能和疾病有關的變數 10/15 20:55
→ dummytrue: 才會想說遺失過大的填補是否有意義? 10/15 20:56
→ f496328mm: 你可以從醫學領域出發去想 10/15 22:35
→ f496328mm: 疾病應該就是 有病跟沒病 10/15 22:35
→ f496328mm: 填補可以試試平均 10/15 22:36
→ f496328mm: 或是特殊醫療檢測 例如核磁共振 10/15 22:36
→ f496328mm: 一般很難做到核磁共振 就算做這個能高度判斷出有無病 10/15 22:37
→ f496328mm: 一般醫院還是從X光、超音波開始,頂多到電腦斷層 10/15 22:37
→ f496328mm: 你做出核磁的變量x超強 但好像意義不大? 10/15 22:38
→ f496328mm: 基本上也是高度遺失值 10/15 22:41
→ dummytrue: f大的東西看起來好誘人XD 我目前是還在鑽統計的模型 10/16 09:37
→ dummytrue: 不過很想走到ML的領域去 可以的話 f大能否再多介紹一些 10/16 09:41
→ dummytrue: 另外我的變數都是一般抽血檢查或問診結果 10/16 09:43
→ dummytrue: 我後來想想填補的效果不應該在模型中跑出顯著差異 10/16 09:44
→ dummytrue: 所以就大膽補下去了 10/16 09:44
推 f496328mm: 我剛好10/16被抓去當兵 以後很難回你啦 10/28 15:11
→ f496328mm: 基本上醫學上做這個 應該就是希望 10/28 15:12
→ f496328mm: 最少成本(檢驗方法) 達到最高判斷率吧? 10/28 15:12
→ f496328mm: 一般迴歸可以看 p value, 或是 lasso AIC BIC 等等 10/28 15:13
→ f496328mm: 遺失值方面 應該有相對應的統計模型 10/28 15:14
→ f496328mm: 我是從 ML 的角度去看 10/28 15:14
→ f496328mm: 利用少量變數 達到不錯的準確度 10/28 15:14
→ f496328mm: 另外 lasso 也很多種變形 10/28 15:15
→ f496328mm: 不要侷限在單一檢驗方法 全部一起用會比較好 10/28 15:15