看板 Statistics 關於我們 聯絡資訊
有一組心臟病的資料,樣本數大概有三百個、共有13個變數,有類別也有連續變數、目標 變數是二元離散變數(0、1) 要對資料進行建模分類,但在分類之前想要先做檢定刪掉對目標變數沒有影響力的變數, 就是某個變數x在目標變數的兩個類別中是沒有顯著差異的就刪掉,不知道這樣的想法有 沒有問題? 如果可以的話是做t檢定還是變異數檢定?如果是t檢定的話又分為獨立、單一跟成對,要 用哪個呢?針對離散變數的話是做卡方檢定嗎?如果做變異數檢定的話是不是一定要先做 常態、線性跟同質性檢定? 不好意思因為想要做一套完整的分析所以問題有點多 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 117.19.228.155 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Statistics/M.1587695818.A.91E.html
andrew43: 既然是預測二元單變數,何不直接logistic regression再04/24 11:11
andrew43: 進行變數(模型)挑選?04/24 11:11
因為這次並沒有打算使用邏輯斯迴歸而是選擇其他方法,所以想說可不可以用檢定的方式 選擇變數 ※ 編輯: wangborwai (117.19.228.155 臺灣), 04/24/2020 13:21:12
yhliu: 比較變異數或平均數都不足以比較出各該潛在解釋變數與目標 04/24 13:46
yhliu: 變數是否有關. 應比較整個分配. 就連續型變數而言, 考慮 04/24 13:48
yhliu: Komogorov-Smirmnov test, 就離散型變數, 考慮列聯表檢定. 04/24 13:51
yhliu: Y=1 和 Y=0 是不同個案, 除非抽樣是依目標值配對(如 case- 04/24 13:53
yhliu: control study), 否則我不知道你將如何去 "配對" 樣本? 04/24 13:54
ksherry: 單純挑變數, 就用 LPM 先看顯著性, 記得用 White S.E. 04/24 20:03
j1990312: 你如果直接跑lasso 然後用logistics regression,好像就 04/28 12:55
j1990312: 解決你這個問題 04/28 12:55
j1990312: 樓上y大的想法很合理,你應該告訴我們,你的最終目的是 04/28 12:58
j1990312: 什麼,你是要建模嗎?! 04/28 12:58
rebe212296: t 檢定需要常態資料 05/02 15:18