看板 Statistics 關於我們 聯絡資訊
各位先進好。 在進行一般線性模型(如複回歸、ANCOVA)或廣義線性模 型(如普瓦松回歸)模型時,若在自變數中加入了類別資 料且超過二種類別,則需要將之轉換成虛擬變數以進行迴 歸分析。之後所得到迴歸中針對各變數之係數檢驗結果, 會呈現「在同一種 factor 之下以某 level 為基準點再與 其它 level 相比較」之結果,而非「此種 factor 之內的 level 間是否有顯著的差異」。但在 ANOVA 及其相關的分 析方法中,則會先得到「此種factor 之內的 level 間是 否有顯著差異」之結論。 假如 factor 不只一個,且 factor 內的 level 又超過二 個,再加上 factor 之間的交互作用,會讓分析結果之判 讀更為不易。但如果是典型的 Two-way ANOVA,其分析結 果就單純多了:某 factor 內是否有差異,以及交互作用 是否顯著存在。 用文字描述不太容易,請見以下自行製造的例子(請先別管 重覆數太少的問題)。 資料: y x1 x2 5 a d 0 a e 5 a f 6 b d 3 b e 1 b f 2 c d 4 c e 3 c f 其中 y 為觀測值,x1 與 x2 為 factor 且分別有 3 個 level。以下我以 y 為因變數,x1 與 x2 及它們的交互 作用進行普瓦松迴歸: # R code y <- c(5, 0, 5, 6, 3, 1, 2, 4, 3) x1 <- gl(3, 3, label=c('a','b','c')) x2 <- gl(3, 1, 9, label=c('d','e','f')) mod <- glm (y ~ x1 * x2, family=poisson) summary(mod) 部份之結果輸出為: Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) 1.609e+00 4.472e-01 3.599 0.000320 *** x1b 1.823e-01 6.055e-01 0.301 0.763343 x1c -9.163e-01 8.367e-01 -1.095 0.273439 x2e -2.391e+01 4.225e+04 -0.001 0.999548 x2f 3.760e-16 6.325e-01 5.94e-16 1.000000 x1b:x2e 2.322e+01 4.225e+04 0.001 0.999561 x1c:x2e 2.461e+01 4.225e+04 0.001 0.999535 x1b:x2f -1.792e+00 1.252e+00 -1.432 0.152287 x1c:x2f 4.055e-01 1.111e+00 0.365 0.715036 其中可見,factor x1 的 level a 及 factor x2 的 level d 皆被設定為該 factor 內的基準點,而各係數 之解釋皆需以各自 factor 內的基準點相比較才有意義。 再看到交互作用有關的最後四項係數,眼都花了。整個 模型,除了常數項,我得到 8 個 p-value。 假如今天把分析方法設計成典型的 3 * 3 Two-way ANOVA,我只會得到 3 個 p-value,分別顯示 x1 及 x2 各 level 間是否呈顯著差異,以及 x1 與 x2 的交互作 用是否顯著存在。 在實際需求上,我們常常需要得到「ANOVA 型式」的結果, 但卻只能以虛擬變數的方式呈現。例如上例中,我的資料使 用普瓦松回歸進行分析,但我也希望得到 x1 或 x2 是否 顯著及其交互作用是否顯著,而不是總必須和基準點相比 較,有這種可能和辦法嗎? 我至少知道,ANOVA 和一般線性模型之回歸分析是等價的, 但如何從這二種不同型式的結果推導至另一種,知識不夠 使我辦不到,更何況是廣義線性模型了。 不好意思我的問題很長,但我想找到答案是,以虛擬變數 取得的迴歸結果常常不易解釋,但我希望在同樣的分析上 取得類似 ANOVA 的結果,不知道這是否可能?尤其是在 廣義線性模型的情況下。 -- http://apansharing.blogspot.com/ -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 140.128.117.73
yhliu:做模型比較. +x1+x2 vs. +x2, to test x1. 03/17 08:54
bmka:ANOVA is equivalent to the likelihood ratio test under 03/17 09:29
bmka:a linear regression model. You can perform LRT under 03/17 09:30
bmka:a generalized linear model as well. 03/17 09:31
bmka:好長的中文 @_@ 03/17 09:36
andrew43:如果我沒有會意誤的話,以上二位前輩的意思是一致的嗎? 03/17 12:56
ADORIAN:是一致的, 或許參考看看複迴歸中的 partial F test 03/19 09:42
andrew43:謝謝大家。我會繼續了解LR-test和Wald-test的方法。 03/19 14:28