推 anovachen:模型去掉其中一個解釋變數就可能造成其他迴歸係數出問題 03/12 23:54
你可以說明你這句話的意思嗎?
你有沒有寫過一個問題是
現在考慮 Y = B0 + B1*X1 + B2*X2 + 誤差
如果我現在X1 跟 X2有正的covariance
假設X1跟X2的平均值都為0、B0=0
那麼[X1 X2]' * [X1 X2]的反對角線會是一個大於零的數
則cov(X1,X2)便會影響到B1與B2的估計,
因此,你刪掉一個不獨立的變數當然會影響其他斜率的估計。
→ anovachen:而且小樣本+迴歸係數母數很小的時候更容易發生這問題 03/12 23:58
→ anovachen:所以才要看VIF 03/12 23:59
LSE的估計值都已經是不偏、最小variance,你要說明什麼?
→ anovachen:另外,ridge regression是偏誤估計量... 03/12 23:59
RR估計確實是有偏的,可是一般而言,可以獲得較stable的結果。
推 anovachen:純粹從實務經驗來講,迴歸係數可以反應效果大小, 03/13 00:08
這裡跟實務又有什麼關係了?你如果資料不是全部都標準化
你的迴歸係數還有受到單位大小影響,不能反映效果大小
→ anovachen:共線性會讓去掉某個解釋變數後,另外某個變數迴歸係數 03/13 00:09
→ anovachen:由顯著變不顯著(或反之),由正變負(或反之)... 03/13 00:09
這點剛剛已經回答過了,有相關的變數去掉當然會影響係數估計的大小
顯著跟不顯著其實主要是因為se的估計而導致
→ anovachen:這樣研究人員根本不曉得要怎麼解釋研究結果。 03/13 00:09
你可以更具體的說明什麼叫做研究人員不曉得怎麼解釋研究結果嗎?
整理:
1. 有多重共線性時,其中一個解決方式是只留下correlation高的其中一個變數
但是有時候研究者關心的是全部變數的效果大小時,你要研究者怎麼取捨?
2. 承第一個問題,這時候RR提供一個犧牲unbias,而提供一個比較stable的結果
因此,RR是另外一種解決方式
3. 去除掉correlation較高的變數,會使得估計值有影響是自然現象,
但是correlation高的一組變數會使得X'X的反矩陣不穩定,
因此,SE往往是高估,而檢定結果便會受到影響,
PS: 此處我不認為估計值的大小跟多重共線性有關。
→ anovachen:英文維基百科Consequences of multicollinearity上寫的 03/13 00:20
→ anovachen:大致上是我懂的,某些情況甚至也是經歷過的 03/13 00:20
→ anovachen:您可以評論維基百科的那個段落... 03/13 00:21
我引述其中一段:
So long as the underlying specification is correct, multicollinearity does
not actually bias results; it just produces large standard errors in the
related independent variables.
我在說的便是這一點,多重共線性不會影響係數的估計,只會導致SE過大。
→ anovachen:如果要把全部的解釋變數都放進模型,之前我試過主成分 03/13 00:25
→ anovachen:迴歸 03/13 00:25
請問主成分回歸的係數,你要怎麼解釋?
往往主成分的構成是難以找到一個適當的解釋,這是為人所詬病的
但是RR的好處就是保留原變數,而且提供相對穩定的估計
→ anovachen:在當時的情況,我不會去解釋迴歸係數,因為我是做 03/13 00:27
→ anovachen:資料探勘,要做預測模型 03/13 00:27
如果做預測模型,那麼大的SE跟小的SE不會影響預測結果
那麼這時候用原本的回歸式做預測還比較快,畢竟斜率還是不偏
→ anovachen:如果是流行病學研究遇到這問題,就要考慮干擾因子 03/13 00:28
你是指confounding factor嗎?這個跟此處問題有何關係?
→ anovachen:通常我會把干擾因子配對後作conditional logistic迴歸 03/13 00:30
→ anovachen:但那是因為資料屬性的關係((都是二分類型的反應變項 03/13 00:31
→ anovachen:而不會把干擾因子也丟進模型裡 03/13 00:31
你想說的是干擾因子會影響係數的大小嗎?
那麼在回歸的開頭便會跟你說 如果你研究的是因果關係時
必須要特別注意confounding factor所帶來的效果
還要有理論上的支持,此兩者的因果關係,
因為線性關係不imply因果關係
所以你要建模時,這些本就該考量
→ anovachen:同意你的說法...但有些學生是一股腦的把資料庫的變數 03/13 00:42
→ anovachen:丟進去模型裡.... 03/13 00:42
→ anovachen:然後上台報告時就開始不曉得怎麼解釋了= = 03/13 00:42
這個是那些學生的問題...這裡沒要討論這個
→ anovachen:不過作預測模型時,共線性的影響都是參考別人的經驗, 03/13 00:42
→ anovachen:我不確定有共線性時,模型是否會因此不穩定(如何證明? 03/13 00:43
怎樣叫做模型的不穩定?預測不好?
→ anovachen:維基講共線性那邊提到的statistically robust 03/13 00:44
那段再說明最好的模型Y只跟X相關,而X之間相關只是最低限度的相關,
(這句不太會翻譯)
則這樣的模型便具有統計上的穩健性質
→ anovachen:可能換了某組sample就預測不準這樣... 03/13 00:46
所以你要找找看prediction error了,我如果沒記錯
multicollinearity跟estimate、prediction都沒關係~~
※ 編輯: celestialgod 來自: 36.238.199.20 (03/13 00:56)
推 andrew43:共線性對預測結果會有不穩定性。可以這樣想像: 03/13 11:16
→ andrew43:假如我有一個 y=b0+b1x1+b2x2 的迴歸式且x1和x2高度相關 03/13 11:17
→ andrew43:則以三維座標來檢視這個迴歸結果可以發現, 03/13 11:17
→ andrew43:x1和x2的樣本在空間中接近連成一線,而使y的預測平面 03/13 11:18
→ andrew43:可任意地以這條x1和x2組成的線旋轉。 03/13 11:19
→ andrew43:因此,假如欲預測一個離這條共線較遠的樣本,那就不準了 03/13 11:21
→ andrew43:或是說很大的機會是非常不準。 03/13 11:22