看板 Statistics 關於我們 聯絡資訊
目前有一筆資料想用logit歸迴式做估計 其中全體的樣本數是80,000 而應變數中 Y=1的樣本數只有300 Y=0的樣本數則是佔多數 我是在想 Y=1的樣本相對少太多了 會不會因為這樣而造成估計出來的係數都不顯著? 如果我的想法是對的話 有沒有什麼修正方法 目前尚未跑軟體,是因為還在整理資料階段 只是忽然想到這個問題~~ 感謝版友解惑 -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 220.138.39.250
andrew43:若應變數有解釋能力, 沒有這種問題. 07/01 17:03
KirinGuess:Google關鍵字: rare event, logit. 可找到一些文獻. 07/01 19:19
gsuper:我只知道當細格有0時 肯定會不顯著 而複回歸下的交互作用 07/01 20:56
gsuper:幾乎都會顯著 然後斜率會爆炸 07/01 20:57
dofu1943:細格有0的意思是? 07/01 21:37
gsuper:假設你有3個2元features,就會有2^3個格子,任一格有0 07/01 23:26
gsuper:交互作用就會出問題,像你的第一個feature是300:80000 07/01 23:27
gsuper:因此當你新增兩個features,那300就會再切分成4小塊 07/01 23:27
gsuper:所以套越多 rare events,細格就越有可能出現0 07/01 23:28
gsuper:然後model就爆炸了 07/01 23:43
andrew43:修正我的推文: "自變數..." 07/02 00:14
andrew43:g兄說的是有可能發生. 細格若有極小值是要小心對付. 07/02 00:16
andrew43:建議檢視模型的配適度, 會有更深入的討論. 07/02 00:18
RungTai:軟體已發展出適用這種的跑法了 就是 rare event logit 07/03 10:31
RungTai:STATA有 relogit 07/03 10:32
RungTai:若你DV是 count 則要跑 zero-inflated 的負二項迴歸 07/03 10:33
dofu1943:先感謝推文的大大,我先跑跑看,有問題再麻煩大大們了 07/04 19:44