看板 Statistics 關於我們 聯絡資訊
bmka:y大, 那你最好檢查一下你的程式10/09 19:44
bmka:sorry, 是 c大10/09 19:45
bmka:BTW, 我的建議是 X1,X2,X1*X2各自做centering,不是只有X1X2做10/09 19:47
bmka:其實想法很簡單, 就是利用centering去處理collinearity(笑)10/09 19:55
bmka:(假裝不知道它們之間的關係),不過,這只能避免一點計算上的10/09 20:24
bmka:小小問題...好處是除了截距項外其他係數不會變10/09 20:31
我想 既然b大有那麼多種的想法 又要追求嚴謹 只好以我之前一份已經發表的paper裡的data 來檢驗各種在這個討論串曾提及的模型 以進一步驗證 哪些意見是正確的 哪些意見是不嚴謹的 Model1:Y=b0+b1X1r+b2X2r+b3(X1r*X2r)+a (完全不調整資料的原始模形) b值 標準誤 bata值 t值 顯著性 允差 VIF 截距 4.227 1.200 3.522 .001 X1r -.328 .185 -.402 -1.771 .078 .061 16.377 X2r -.069 .203 -.068 -.341 .734 .078 12.764 X1r*X2r .117 .050 .804 2.333 .020 .027 37.699 基本上,在不調整任何資料型態的時候,在迴歸模式中,置入交互作用項 一定會導致共線性過高的問題,所估計之參數結果應該也是有偏誤的。 Model2:Y=b0+b1X1r+b2X2r+b3(X1c*X2c)+a (自變項不centering,交互作用項由兩個自變項centering後的交乘積形成) b值 標準誤 bata值 t值 顯著性 允差 VIF 截距 2.503 .914 2.739 .007 X1r .105 .050 .129 2.091 .038 .828 1.207 X2r .398 .066 .392 6.035 .000 .744 1.344 X1c*X2c .117 .050 .136 2.333 .020 .930 1.075 此模式為我個人引註自Aiken和West(1991),亦是我在這篇發表paper 中的模式,由數據結果來看,與模式一相較,共線性情況明顯改善, 估計的參數對研究內容亦有不錯的結果發現。 Model3:Y=b0+b1X1c+b2X2c+b3(X1c*X2c)+a (自變項centering,交互作用項由兩個自變項centering後的交乘積形成) b值 標準誤 bata值 t值 顯著性 允差 VIF 截距 4.390 .925 4.746 .000 X1c .105 .050 .129 2.091 .038 .828 1.207 X2c .398 .066 .392 6.035 .000 .744 1.344 X1c*X2c .117 .050 .136 2.333 .020 .930 1.075 此模式經P大先前提示,確實也為Aiken和West(1991)所證實之模式, ,由數據結果來看,與模式一相較,共線性情況明顯改善;與模式二 相較,除了截距參數不同外,其餘參數皆一致。 Model4:Y=b0+b1X1r+b2X2r+b3(X1r*X2r)c+a (自變項不centering,交互作用項由兩個自變項未centering的交乘積形成, 再直接對交互作用項進行centering) b值 標準誤 bata值 t值 顯著性 允差 VIF 截距 5.974 1.780 3.356 .001 X1r -.328 .185 -.402 -1.771 .078 .061 16.377 X2r -.069 .203 -.068 -.341 .734 .078 12.764 (X1r*X2r)c .117 .050 .804 2.333 .020 .027 37.699 此模式為b大在原po e大的文章中回文所提到的 "把x1*x2當成另一個變數z, 對新變數做中心化" 雖然不知道引註自何處的觀點,但從分析結果可以瞭解 此模式與模式一相同,共線性問題嚴重,且與模式二和 模式三相較,截距與其他各估計參數皆不一致。 Model5:Y=b0+b1X1c+b2X2c+b3(X1r*X2r)c+a (自變項centering,交互作用項由兩個自變項未centering的交乘積形成, 再直接對交互作用項進行centering) b值 標準誤 bata值 t值 顯著性 允差 VIF 截距 4.413 .926 4.765 .000 X1r -.328 .185 -.402 -1.771 .078 .061 16.377 X2r -.069 .203 -.068 -.341 .734 .078 12.764 (X1r*X2r)c .117 .050 .804 2.333 .020 .027 37.699 ※ 原模式五的資料key-in錯誤,已修正。 此模式亦為b大在先前的回文中,認為我所分析的模式四結果有異,是由於 我誤解他的原意所造成,b大認為"X1,X2,X1*X2各自做centering,不是只有X1X2做" 因此,模式五來自於此。 結果顯示,與模式一或模式四一樣,此模式仍然有共線性的偏誤,進一步查驗 各估計參數,亦會發現,除截距外,各估計參數與模式四完全相同,但與模式 二和模式三相比更是差異頗大,彷彿完全不同的模式。 總結上述 如同我在前一篇回文最後所言道 中心化是一個操作簡單 意義複雜的議題 更不是研究者憑藉個人喜惡 欲對任何變項進行中心化就為之 以上述五個模式而言 模式二和模式三的作法 在SCI&SSCI期刊裡 探討交互作用議題中 廣為被接受與引用 也因此奠立了Aiken和West兩位學者的學術地位 然而 以量化研究的精神而言 我也不敢太早言斷 b大所提及的模式四與模式五是錯的 頂多只能自認為其觀點目前不夠嚴謹(共線性仍然嚴重) 畢竟量化研究的哲學 從來無法證明"什麼是對的" 充其量只能證明"不是錯的" 或許 b大可以引註其觀點來源 與眾板友們分享 最後 其實小弟的統計功力也不敢自稱有多好 只是個對統計議題有興趣的迷世書僮 希望能夠在這個園地 與來自各地的統計同好 一同討論 一同交流 教學相長 感謝各位費神地看完這長篇大文 如有任何疏漏 還望各位大大 不吝斧正 -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 112.105.112.241 ※ 編輯: coldwind0912 來自: 112.105.112.241 (10/09 23:23)
lin15:廢神XD 10/09 23:27
coldwind0912:別會錯意呀 囧rz 我是怕大家看落落長很累呀~~~ 10/09 23:31
※ 編輯: coldwind0912 來自: 112.105.112.241 (10/09 23:33)
bmka:我從沒說過前面幾個方法是錯的啊... = = 10/09 23:35
bmka:但是最後一個方法(也就是我提的方法) (X1X2)c的係數竟然 10/09 23:36
clayclc:整理的真詳細 10/09 23:37
bmka:跟其他model不一樣,這讓我非常驚訝 10/09 23:37
bmka:err...我看到的是修改前的table 10/09 23:41
bmka:所以原po在前一篇說最後一個model的y估計值跟其他不一樣時 10/09 23:43
bmka:我的第一個反應才是請你check你的程式 10/09 23:43
bmka:因為centering只會影響SE的估計值,不會影響係數的估計 10/09 23:46
bmka:c大的table整理得很好,但是不同table的VIF不能直接比較 10/10 00:08
bmka:比如說, X1c*X2c = X1X2-m2*X1-m1*X2-m1*m2, m1,m2是X1,X2的 10/10 00:10
bmka:average.所以不能直接拿 X1c*X2c 跟 X1*X2兩者的VIF來比 10/10 00:12
Prozac:VIF本來就沒有比較意義吧 他只是一種參考指標 10/10 00:18
Prozac:C大有空的話把所有東西的相關矩陣貼一下 資訊是差不多的 10/10 00:19
coldwind0912:VIF只是在反應模式的共線性程度 我有哪來比嗎? 10/10 00:19
coldwind0912:基本上 任何一個變項VIF>10 這模式的共線性已經.... 10/10 00:21
bmka:所以這幾個model fit 你比的是?要不要都還原成整理過後的 10/10 00:23
bmka:model來看, i.e. y=c1+c2*x1+c3*x2+c4*x1*x2+e來比比看 10/10 00:24
bmka:至少目前看來 c4的coeficient跟SE的估計值都是一樣的 10/10 00:25
coldwind0912:在共線性存在的情況下 係數跟估計值都是偏誤的... 10/10 00:27
coldwind0912:M1 M4 M5都是共線性偏誤的Model... 10/10 00:28
Prozac:就現在的分析結果來看 我們原本要討論的東西已經差不多了 10/10 00:29
coldwind0912:如果b大要堅持c4一致 我同意 10/10 00:29
coldwind0912:但請考慮 在M1 M4 M5中 c4對c2 c3的影響性 10/10 00:30
Prozac:我倒是比較好奇B大那個方法是哪來的 想看看提出人的想法 10/10 00:30
bmka:c大,沒錯啊,所以還原成最簡化的model來比較看看啊 10/10 00:33
bmka:P大,我說過了,那是假裝不知道X1X2跟X1,X2之間的關係 10/10 00:35
bmka:我的原意是讓除了常數項以外的係數不要變 10/10 00:35
Prozac:嗯 我知道 我其實想跟B大要得是參考文獻 我想要瞭解一下 10/10 00:36
Prozac:因為我沒聽過這樣的作法 我覺得觀點上而言很新鮮 10/10 00:36
coldwind0912:b大您曾提到"利用centering去處理collinearity" 10/10 00:36
coldwind0912:但就M4 M5而言 collinearity跟M1是一模一樣的 10/10 00:37
coldwind0912:那M4 M5的做法 對於處理collinearity真的有用嗎? 10/10 00:37
bmka:c大,我是指你的M2,M3整理過簡化後的model 10/10 00:38
Prozac:還有 我也很好奇 還原到最簡化的模式是啥意思?要比什麼? 10/10 00:39
coldwind0912:我也理解 centering就是希望常數項以外的係數不要變 10/10 00:39
Prozac:是B大覺得C大作的分析無法說服你嗎?我有點不明白B大的意思 10/10 00:39
coldwind0912:我簡化了什麼= = 分析model就長那樣 結果數據就那樣 10/10 00:40
bmka:Like this, a0 + a1*X1 + a2*X2 + a3*(X1-m1)*(X2-m2) 10/10 00:42
bmka:= a0+ a3m1m2 + (a1-a3 m2)X1 +(a2-a3m1)X2 + a3X1X3 10/10 00:43
bmka:比較 a1-a3m2 跟M1下X1的SE (係數應該是要一樣) 10/10 00:45
bmka:我很好奇SE會差多少 10/10 00:46
bmka:P大, C大結果表示我的方法對SE的估計沒有影響 XD 10/10 00:50
Prozac:沒有影響? 你的方法M5在標準誤和係數檢定都有問題阿 10/10 00:54
Prozac:很明顯的被共線性所影響阿 我不懂你沒有影響的意思 10/10 00:55
clickhere:b 講的是M4. 10/10 00:57
clickhere:問: 為什要用這種模型? 怎麼看都不太好. 10/10 00:59
Prozac:嗯? 沒差阿 M4也是被共線性影響的一塌糊塗 ▔▽▔ 10/10 00:59
clickhere:還是單就討論共線性? 不太懂這些比較的意義. 10/10 01:00
coldwind0912:b大 你的like this是M2吧 M4還原不是那樣吧.... 10/10 01:01
Prozac:這問題我剛就問過了 我不懂現在B大到底想比什麼 10/10 01:01
clickhere:no,即便是M1-M3亦同. 10/10 01:02
clickhere:b 想說的是有更好的方法呀. 10/10 01:03
coldwind0912:M4 M5就是b大認為的好方法呀 10/10 01:05
bmka:C大,我指的是把(X1-m1)*(X2-m2)展開,把這幾種model都寫成 10/10 01:06
bmka:沒有cener以前的項,比較 X1, X2的SE(至於X1*X2的SE已經知道是 10/10 01:08
bmka:一樣了),係數就不必比了,一定是一樣的 10/10 01:08
coldwind0912:b大 基本上M4M5的中心化 只改變a0 對a1~a3沒影響 10/10 01:10
bmka:C大,就算M4M5是很不好的方法,看看它有多不好也很有趣啊 10/10 01:11
coldwind0912:但是 M1M4M5的共線性依舊存在 a1~a3的係數都是偏誤的 10/10 01:11
coldwind0912:而如同你在like this那邊所述 10/10 01:12
bmka:C大,我指的是M2 & M3 10/10 01:12
Prozac:嗯 B大研究後發PAPER記得告訴我 XD 10/10 01:12
coldwind0912:M1與M2的a1相比 M2其實是a1-a3m2 這就是中心化的調整 10/10 01:12
bmka:C大,你不會是直接比較這幾個table的係數吧!!! 10/10 01:13
coldwind0912:這個調整 也讓整個model的共線性降低 10/10 01:13
bmka:我知道,但是要公平的比較這幾個method,還是要還原到原始 10/10 01:14
coldwind0912:因為 以這筆data而言 X1的true effect是a1-a3m2 非a1 10/10 01:14
bmka:沒調整過的 10/10 01:15
bmka:所以我有興趣知道的是a1-a3m2的SE跟M1中X1的SE來比 10/10 01:16
yhliu:明明是很簡單的問題, 卻爭論了那麼久... 10/10 01:18
Prozac:B大何不跑個模擬或推導後回一篇 讓我們品香一下 10/10 01:18
yhliu:兩個 "不相干" 變數是否中心化, 當然不影響兩變數的相關, 因 10/10 01:19
yhliu:為計算相關本來就要減去中心(平均數). 然而, X 與 X^2 的相 10/10 01:20
yhliu:會與 X 與 (X-E[X])^2 的相關相等嗎? X1 與 X1*X2 的相關會 10/10 01:21
yhliu:和 X1 與 (X1-E[X1])(X2-E[X2]) 的相關相等嗎? 一般而言是不 10/10 01:22
yhliu:會. 10/10 01:23
yhliu:至於考慮交互作用, 其獨立解釋變數是否要先置中再相乘而建構 10/10 01:24
yhliu:成交互作用項, 這又有甚麼好討論的? 10/10 01:25
yhliu:當最高階交互作用項是 x1*x2 時, 不管用 x1*x2 或先置中再相 10/10 01:26
yhliu:乘, 其係數都一樣. 影響的是主效應項 (x1, x2 之係數). 然而 10/10 01:26
yhliu:在有交互作用時, 單看主效應項本來就是錯誤的! 而就組合效應 10/10 01:27
yhliu:(x1, x2 與 x1*x2 組合來看), 其結論是相同的. 10/10 01:28
Prozac:推Y大 10/10 01:43
coldwind0912:感謝y大指教~ 10/10 01:46
bluechuchy:認同y大,基本上跟我前篇回文意義一樣,趨勢一致 10/12 19:05
bluechuchy:基本上,這個討論很完整了.....等於小工作坊了 10/12 19:06
eternalviva:請問什麼是bata值? 這連串的討論真讚 10/12 20:24
ADORIAN:y 大沒有提到 "趨勢", 你確定意義一樣? 10/13 14:00
bluechuchy:bata值是b的標準化 10/13 14:01
abuu0929:大感謝這篇,本來正要開始試各種MODEL的,感謝C大 11/03 15:05
abuu0929:現在又看到y大說的,太有道理了(淚)... 11/03 16:33