看板 Statistics 關於我們 聯絡資訊
我用了一個可算informaiton value的package 某變項IV顯著 但把此變項轉成catgorical的7個變項 完全不顯著 data set中有一個變項是income 是用數字表示順序性的範圍 ex: 1:20K-25K 2:26K-35K 3:....... 7:200K以上 變項是 income_level IV值顯著 如果把變項轉換成 income_1 ....income_7 7個變項 沒有一個變項IV顯著 請問為甚麼會有這種現像呢? 究竟income可採納嗎? 我目前是姑且相信它可採納 但是我使用轉換後的7個變項進行預測 這樣的作法會有問題嗎? (apply 到一個logistic的model) 謝謝! -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 24.210.58.35 ※ 文章網址: http://www.ptt.cc/bbs/Statistics/M.1409799069.A.4FC.html
onionsteven: 也是淺見:把資料做了類別轉換 喪失了部分資訊 所以 09/04 17:19
onionsteven: 檢定結果變成不顯著 09/04 17:20
yhliu: 樓上說的不對. 其原始資料本就是分組碼. 09/05 16:54
yhliu: 先不管顯著性, 把用類別變項配適得到的 effect 與各類別的 09/05 16:56
yhliu: 關係圖示, 看是否與所代表的值大致是直線關係, 如是的話, 09/05 16:56
yhliu: 將各類別轉成代表 income 數值的指標, 然後以此指標為模型 09/05 16:59
yhliu: 之解釋變數. 09/05 16:59
yhliu: 會發生所問現象, 可能基本上 income 的效應是簡單趨勢, 而 09/05 17:01
yhliu: 用類別變數, 7類佔用了6個自由度. 想像 income 的總效應被 09/05 17:02
yhliu: 6個自由度分享, 每個自由度平均的 effect 當然比較不容易顯 09/05 17:03
yhliu: 著. 而如果趨勢是直線的, 大部分效應歸屬於這個直線趨勢, 09/05 17:04
yhliu: 是比較容易達到統計顯著性的. 09/05 17:04
lynnctc: 如上所述, 可減少組別試試看 09/05 23:29
謝謝大家分享指教 ※ 編輯: cawaiilulu (24.210.58.35), 09/08/2014 03:08:44