Re: [問題] 交互作用 負負相乘的問題

作者coldwind0912 (隨風而逝~)

看板Statistics

標題Re: [問題] 交互作用負負相乘的問題

時間Sat Oct 9 22:56:31 2010

→ bmka:y大, 那你最好檢查一下你的程式10/09 19:44

→ bmka:sorry, 是 c大10/09 19:45

→ bmka:BTW, 我的建議是 X1,X2,X1*X2各自做centering,不是只有X1X2做10/09 19:47

→ bmka:其實想法很簡單, 就是利用centering去處理collinearity(笑)10/09 19:55

→ bmka:(假裝不知道它們之間的關係),不過,這只能避免一點計算上的10/09 20:24

→ bmka:小小問題...好處是除了截距項外其他係數不會變10/09 20:31

我想既然b大有那麼多種的想法又要追求嚴謹只好以我之前一份已經發表的paper裡的data 來檢驗各種在這個討論串曾提及的模型以進一步驗證哪些意見是正確的哪些意見是不嚴謹的 Model1：Y=b0+b1X1r+b2X2r+b3(X1r*X2r)+a (完全不調整資料的原始模形) b值標準誤 bata值 t值顯著性允差 VIF 截距 4.227 1.200 3.522 .001 X1r -.328 .185 -.402 -1.771 .078 .061 16.377 X2r -.069 .203 -.068 -.341 .734 .078 12.764 X1r*X2r .117 .050 .804 2.333 .020 .027 37.699 基本上，在不調整任何資料型態的時候，在迴歸模式中，置入交互作用項一定會導致共線性過高的問題，所估計之參數結果應該也是有偏誤的。 Model2：Y=b0+b1X1r+b2X2r+b3(X1c*X2c)+a (自變項不centering，交互作用項由兩個自變項centering後的交乘積形成) b值標準誤 bata值 t值顯著性允差 VIF 截距 2.503 .914 2.739 .007 X1r .105 .050 .129 2.091 .038 .828 1.207 X2r .398 .066 .392 6.035 .000 .744 1.344 X1c*X2c .117 .050 .136 2.333 .020 .930 1.075 此模式為我個人引註自Aiken和West(1991)，亦是我在這篇發表paper 中的模式，由數據結果來看，與模式一相較，共線性情況明顯改善，估計的參數對研究內容亦有不錯的結果發現。 Model3：Y=b0+b1X1c+b2X2c+b3(X1c*X2c)+a (自變項centering，交互作用項由兩個自變項centering後的交乘積形成) b值標準誤 bata值 t值顯著性允差 VIF 截距 4.390 .925 4.746 .000 X1c .105 .050 .129 2.091 .038 .828 1.207 X2c .398 .066 .392 6.035 .000 .744 1.344 X1c*X2c .117 .050 .136 2.333 .020 .930 1.075 此模式經P大先前提示，確實也為Aiken和West(1991)所證實之模式，，由數據結果來看，與模式一相較，共線性情況明顯改善；與模式二相較，除了截距參數不同外，其餘參數皆一致。 Model4：Y=b0+b1X1r+b2X2r+b3(X1r*X2r)c+a (自變項不centering，交互作用項由兩個自變項未centering的交乘積形成，再直接對交互作用項進行centering) b值標準誤 bata值 t值顯著性允差 VIF 截距 5.974 1.780 3.356 .001 X1r -.328 .185 -.402 -1.771 .078 .061 16.377 X2r -.069 .203 -.068 -.341 .734 .078 12.764 (X1r*X2r)c .117 .050 .804 2.333 .020 .027 37.699 此模式為b大在原po e大的文章中回文所提到的 "把x1*x2當成另一個變數z, 對新變數做中心化" 雖然不知道引註自何處的觀點，但從分析結果可以瞭解此模式與模式一相同，共線性問題嚴重，且與模式二和模式三相較，截距與其他各估計參數皆不一致。 Model5：Y=b0+b1X1c+b2X2c+b3(X1r*X2r)c+a (自變項centering，交互作用項由兩個自變項未centering的交乘積形成，再直接對交互作用項進行centering) b值標準誤 bata值 t值顯著性允差 VIF 截距 4.413 .926 4.765 .000 X1r -.328 .185 -.402 -1.771 .078 .061 16.377 X2r -.069 .203 -.068 -.341 .734 .078 12.764 (X1r*X2r)c .117 .050 .804 2.333 .020 .027 37.699 ※ 原模式五的資料key-in錯誤，已修正。此模式亦為b大在先前的回文中，認為我所分析的模式四結果有異，是由於我誤解他的原意所造成，b大認為"X1,X2,X1*X2各自做centering,不是只有X1X2做" 因此，模式五來自於此。結果顯示，與模式一或模式四一樣，此模式仍然有共線性的偏誤，進一步查驗各估計參數，亦會發現，除截距外，各估計參數與模式四完全相同，但與模式二和模式三相比更是差異頗大，彷彿完全不同的模式。總結上述如同我在前一篇回文最後所言道中心化是一個操作簡單意義複雜的議題更不是研究者憑藉個人喜惡欲對任何變項進行中心化就為之以上述五個模式而言模式二和模式三的作法在SCI&SSCI期刊裡探討交互作用議題中廣為被接受與引用也因此奠立了Aiken和West兩位學者的學術地位然而以量化研究的精神而言我也不敢太早言斷 b大所提及的模式四與模式五是錯的頂多只能自認為其觀點目前不夠嚴謹(共線性仍然嚴重) 畢竟量化研究的哲學從來無法證明"什麼是對的" 充其量只能證明"不是錯的" 或許 b大可以引註其觀點來源與眾板友們分享最後其實小弟的統計功力也不敢自稱有多好只是個對統計議題有興趣的迷世書僮希望能夠在這個園地與來自各地的統計同好一同討論一同交流教學相長感謝各位費神地看完這長篇大文如有任何疏漏還望各位大大不吝斧正 -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 112.105.112.241 ※ 編輯: coldwind0912 來自: 112.105.112.241 (10/09 23:23)

→ lin15:廢神XD 10/09 23:27

→ coldwind0912:別會錯意呀囧rz 我是怕大家看落落長很累呀~~~ 10/09 23:31

※ 編輯: coldwind0912 來自: 112.105.112.241 (10/09 23:33)

→ bmka:我從沒說過前面幾個方法是錯的啊... = = 10/09 23:35

→ bmka:但是最後一個方法(也就是我提的方法) (X1X2)c的係數竟然 10/09 23:36

推 clayclc:整理的真詳細 10/09 23:37

→ bmka:跟其他model不一樣,這讓我非常驚訝 10/09 23:37

→ bmka:err...我看到的是修改前的table 10/09 23:41

→ bmka:所以原po在前一篇說最後一個model的y估計值跟其他不一樣時 10/09 23:43

→ bmka:我的第一個反應才是請你check你的程式 10/09 23:43

→ bmka:因為centering只會影響SE的估計值,不會影響係數的估計 10/09 23:46

→ bmka:c大的table整理得很好,但是不同table的VIF不能直接比較 10/10 00:08

→ bmka:比如說, X1c*X2c = X1X2-m2*X1-m1*X2-m1*m2, m1,m2是X1,X2的 10/10 00:10

→ bmka:average.所以不能直接拿 X1c*X2c 跟 X1*X2兩者的VIF來比 10/10 00:12

推 Prozac:VIF本來就沒有比較意義吧他只是一種參考指標 10/10 00:18

→ Prozac:C大有空的話把所有東西的相關矩陣貼一下資訊是差不多的 10/10 00:19

→ coldwind0912:VIF只是在反應模式的共線性程度我有哪來比嗎? 10/10 00:19

→ coldwind0912:基本上任何一個變項VIF>10 這模式的共線性已經.... 10/10 00:21

→ bmka:所以這幾個model fit 你比的是?要不要都還原成整理過後的 10/10 00:23

→ bmka:model來看, i.e. y=c1+c2*x1+c3*x2+c4*x1*x2+e來比比看 10/10 00:24

→ bmka:至少目前看來 c4的coeficient跟SE的估計值都是一樣的 10/10 00:25

→ coldwind0912:在共線性存在的情況下係數跟估計值都是偏誤的... 10/10 00:27

→ coldwind0912:M1 M4 M5都是共線性偏誤的Model... 10/10 00:28

推 Prozac:就現在的分析結果來看我們原本要討論的東西已經差不多了 10/10 00:29

→ coldwind0912:如果b大要堅持c4一致我同意 10/10 00:29

→ coldwind0912:但請考慮在M1 M4 M5中 c4對c2 c3的影響性 10/10 00:30

→ Prozac:我倒是比較好奇B大那個方法是哪來的想看看提出人的想法 10/10 00:30

→ bmka:c大,沒錯啊,所以還原成最簡化的model來比較看看啊 10/10 00:33

→ bmka:P大,我說過了,那是假裝不知道X1X2跟X1,X2之間的關係 10/10 00:35

→ bmka:我的原意是讓除了常數項以外的係數不要變 10/10 00:35

推 Prozac:嗯我知道我其實想跟B大要得是參考文獻我想要瞭解一下 10/10 00:36

→ Prozac:因為我沒聽過這樣的作法我覺得觀點上而言很新鮮 10/10 00:36

→ coldwind0912:b大您曾提到"利用centering去處理collinearity" 10/10 00:36

→ coldwind0912:但就M4 M5而言 collinearity跟M1是一模一樣的 10/10 00:37

→ coldwind0912:那M4 M5的做法對於處理collinearity真的有用嗎? 10/10 00:37

→ bmka:c大,我是指你的M2,M3整理過簡化後的model 10/10 00:38

推 Prozac:還有我也很好奇還原到最簡化的模式是啥意思？要比什麼？ 10/10 00:39

→ coldwind0912:我也理解 centering就是希望常數項以外的係數不要變 10/10 00:39

→ Prozac:是B大覺得C大作的分析無法說服你嗎？我有點不明白B大的意思 10/10 00:39

→ coldwind0912:我簡化了什麼= = 分析model就長那樣結果數據就那樣 10/10 00:40

→ bmka:Like this, a0 + a1*X1 + a2*X2 + a3*(X1-m1)*(X2-m2) 10/10 00:42

→ bmka:= a0+ a3m1m2 + (a1-a3 m2)X1 +(a2-a3m1)X2 + a3X1X3 10/10 00:43

→ bmka:比較 a1-a3m2 跟M1下X1的SE (係數應該是要一樣) 10/10 00:45

→ bmka:我很好奇SE會差多少 10/10 00:46

→ bmka:P大, C大結果表示我的方法對SE的估計沒有影響 XD 10/10 00:50

推 Prozac:沒有影響? 你的方法M5在標準誤和係數檢定都有問題阿 10/10 00:54

→ Prozac:很明顯的被共線性所影響阿我不懂你沒有影響的意思 10/10 00:55

→ clickhere:b 講的是M4. 10/10 00:57

→ clickhere:問: 為什要用這種模型? 怎麼看都不太好. 10/10 00:59

推 Prozac:嗯？沒差阿 M4也是被共線性影響的一塌糊塗 ▔▽▔ 10/10 00:59

→ clickhere:還是單就討論共線性? 不太懂這些比較的意義. 10/10 01:00

→ coldwind0912:b大你的like this是M2吧 M4還原不是那樣吧.... 10/10 01:01

→ Prozac:這問題我剛就問過了我不懂現在B大到底想比什麼 10/10 01:01

→ clickhere:no,即便是M1-M3亦同. 10/10 01:02

→ clickhere:b 想說的是有更好的方法呀. 10/10 01:03

→ coldwind0912:M4 M5就是b大認為的好方法呀 10/10 01:05

→ bmka:C大,我指的是把(X1-m1)*(X2-m2)展開,把這幾種model都寫成 10/10 01:06

→ bmka:沒有cener以前的項,比較 X1, X2的SE(至於X1*X2的SE已經知道是 10/10 01:08

→ bmka:一樣了),係數就不必比了,一定是一樣的 10/10 01:08

→ coldwind0912:b大基本上M4M5的中心化只改變a0 對a1~a3沒影響 10/10 01:10

→ bmka:C大,就算M4M5是很不好的方法,看看它有多不好也很有趣啊 10/10 01:11

→ coldwind0912:但是 M1M4M5的共線性依舊存在 a1~a3的係數都是偏誤的 10/10 01:11

→ coldwind0912:而如同你在like this那邊所述 10/10 01:12

→ bmka:C大,我指的是M2 & M3 10/10 01:12

推 Prozac:嗯 B大研究後發PAPER記得告訴我 XD 10/10 01:12

→ coldwind0912:M1與M2的a1相比 M2其實是a1-a3m2 這就是中心化的調整 10/10 01:12

→ bmka:C大,你不會是直接比較這幾個table的係數吧!!! 10/10 01:13

→ coldwind0912:這個調整也讓整個model的共線性降低 10/10 01:13

→ bmka:我知道,但是要公平的比較這幾個method,還是要還原到原始 10/10 01:14

→ coldwind0912:因為以這筆data而言 X1的true effect是a1-a3m2 非a1 10/10 01:14

→ bmka:沒調整過的 10/10 01:15

→ bmka:所以我有興趣知道的是a1-a3m2的SE跟M1中X1的SE來比 10/10 01:16

→ yhliu:明明是很簡單的問題, 卻爭論了那麼久... 10/10 01:18

推 Prozac:B大何不跑個模擬或推導後回一篇讓我們品香一下 10/10 01:18

→ yhliu:兩個 "不相干" 變數是否中心化, 當然不影響兩變數的相關, 因 10/10 01:19

→ yhliu:為計算相關本來就要減去中心(平均數). 然而, X 與 X^2 的相 10/10 01:20

→ yhliu:會與 X 與 (X-E[X])^2 的相關相等嗎? X1 與 X1*X2 的相關會 10/10 01:21

→ yhliu:和 X1 與 (X1-E[X1])(X2-E[X2]) 的相關相等嗎? 一般而言是不 10/10 01:22

→ yhliu:會. 10/10 01:23

→ yhliu:至於考慮交互作用, 其獨立解釋變數是否要先置中再相乘而建構 10/10 01:24

→ yhliu:成交互作用項, 這又有甚麼好討論的? 10/10 01:25

→ yhliu:當最高階交互作用項是 x1*x2 時, 不管用 x1*x2 或先置中再相 10/10 01:26

→ yhliu:乘, 其係數都一樣. 影響的是主效應項 (x1, x2 之係數). 然而 10/10 01:26

→ yhliu:在有交互作用時, 單看主效應項本來就是錯誤的! 而就組合效應 10/10 01:27

→ yhliu:(x1, x2 與 x1*x2 組合來看), 其結論是相同的. 10/10 01:28

推 Prozac:推Y大 10/10 01:43

→ coldwind0912:感謝y大指教~ 10/10 01:46

推 bluechuchy:認同y大，基本上跟我前篇回文意義一樣，趨勢一致 10/12 19:05

→ bluechuchy:基本上，這個討論很完整了.....等於小工作坊了 10/12 19:06

→ eternalviva:請問什麼是bata值? 這連串的討論真讚 10/12 20:24

→ ADORIAN:y 大沒有提到 "趨勢", 你確定意義一樣? 10/13 14:00

→ bluechuchy:bata值是b的標準化 10/13 14:01

推 abuu0929:大感謝這篇，本來正要開始試各種MODEL的，感謝C大 11/03 15:05

推 abuu0929:現在又看到y大說的，太有道理了(淚)... 11/03 16:33