→ coldwind0912: 你對"因果"的認知 在方法論上來說實在有點薄弱.... 03/06 09:25
→ coldwind0912: 因果 是很嚴謹的機制,須達成特定條件 03/06 09:25
→ coldwind0912: 因果關係 須滿足 時間律、共變律、排它律 三個條件 03/06 09:28
→ coldwind0912: 統計分析 如果分析A→B有影響 A就真的是B的因嗎? 03/06 09:29
→ coldwind0912: 反之 如果分析B→A也有效果 那要說明誰為因?誰為果? 03/06 09:30
→ coldwind0912: 以你的例子來說 今年成績 會影響 今年活動積極度 03/06 09:31
→ coldwind0912: 倘若反過來 今年的活動積極度 也影響 今年的成績呢? 03/06 09:32
感謝C大的回應
您剛好點出我最為難且疑惑的地方
所謂的因果關係如你說的,要共變、因在果之前、非虛假關係
這是很嚴格的條件
即使有影響也未必就有因果關係
變數可能相互影響,或根本沒有因果
可是,我遇到某些人就是主張:
統計只能有1的邏輯,其他都不能
統計就只能判定自變數能否影響依變數?是不是成因?
其他都不算統計
我也覺得這種說法有點怪
但又想不出如何說明它的瑕疵
→ coldwind0912: 至於 統計技術的問題 ANOVA檢驗的是差異性 03/06 09:33
→ coldwind0912: 迴歸方法 檢驗的是解釋力(或預測性) 03/06 09:34
恩,我的理解是這樣:
即使ANOVA做出來組別間有顯著差異
那也只能代表這個差異性的現像是存在的
不表示自變數和依變數必然有因果關係,所以不能妄下因果關係的結論
這樣的理解正確嗎??
→ coldwind0912: 套一句我的方法學啟蒙老師所言: 03/06 09:35
→ coldwind0912: 「單靠統計工具是無法檢驗因果的,須搭配理論基礎」 03/06 09:36
→ coldwind0912: 回到本文 您所述的邏輯一or邏輯二 都有暇疵 03/06 09:38
→ coldwind0912: 而且 量化研究中也不存在這麼特殊的說法 03/06 09:39
→ coldwind0912: 或者是說 量化研究的邏輯也不是這樣子來陳述的 03/06 09:40
→ coldwind0912: 所以再回到「時間跨度」的問題 03/06 09:42
→ coldwind0912: 如果 理論、邏輯、實證 都說明兩個不同跨度的變項間 03/06 09:43
→ coldwind0912: 具有因果關係 那又何嘗不可分析? 03/06 09:43
嘆 可惜我沒能力可以反駁邏輯1的看法
→ coldwind0912: 但反之,如果都解釋不通時,分析又有何意義? 03/06 09:44
→ coldwind0912: 只是多一篇數字遊戲的文章而已,不是嗎? 03/06 09:45
我另外想到一個問題點:
1. 常走實驗、問卷路線的學者
習慣的做法就是:分好組別後,然後進行實驗或填寫問卷
之後再進行統計,分析自變項有無影響依變項
這樣一來,自變數(分組)的時間在前,依變數(實驗、問卷)時間在後
就成為共同的認知:時間在前的一定是自變項,
時間在後的一定是依變項
依變項的時間不能早於自變項
這樣自變項才算有影響依變項
2. 但我這領域的主要單位是 國家
很難用實驗、問卷來研究
很多人用的方式是:為國家分好組別之後
再回過頭去找每個國家的歷史數據
統計分析組別間有無差異,驗證現象有無存在
分析的重點不在 自變與依變的因果關係
而是"不同組的國家"在"參與次數上到底有無顯著差異"??
另外,就好比之前文中的舉例:
雖然把"成績好壞"列為自變項,"參與班會的數量"列為依變項
但那只是因為學者的論述提及:
成績好的學生對於參與班會的次數會比較高
這段論述把"成績"放前面,"班會"放後面
基於使用習慣
所以在統計分析時才把前者稱為自變項,後者稱為依變項
但這兩者到底有無因果關係?成績是否真的會影響班會?
這不是我要分析的重點
我只是想知道學者論述的這個"現象"到底存不存在?
"成績由好至壞的組別"在參與班會的次數上有無顯著差異?
重點是"成績好中壞三組間的差異"
至於"班會"只是用來幫助統計比較這三組的一個變項罷了
如果ANOVA的結果顯示組別有顯著差異+成績好的高於其他組
那表示這個現象是存在的
但ANOVA的結果不表示"成績"和"班會"有直接的因果關係
因此
雖然把"成績"名為自變項,"參與班會"名為依變項
但這兩者並不是傳統的"自變項影響依變項"的關係
純粹只是因為"成績"在前,"班會"在後
才把前面的掛為自變,後面掛為依變
但實際上研究要討論的只是:"成績"的組別之間有無顯著差異
並無牽涉到"成績是否影響班會"...這個主題
這是我想表達的
但我不知道在統計上要用啥詞彙去指稱
所以只能用我自己的話去形容
希望大家聽懂我在說啥.....= =
※ 編輯: winchin (112.105.52.36), 03/06/2015 14:19:42
→ wope: 反例: Y=3*x1+1*x2 (線性回歸), Var(x1)=0.01, Var(x2)=1 03/06 15:04
→ wope: x1變動時會讓Y大量變動(顯著) 03/06 15:05
→ wope: 但Y變動量 大部分是x2造成的(因為x2的Var大) 03/06 15:06
→ wope: 如果討論的是"不同組的國家" 之間比較 硬要用回歸 03/06 15:22
→ wope: 是可以考慮地理統計對空間的Cov做回歸 03/06 15:23
→ wope: 不過這樣做出來不是你的目標 03/06 15:23
→ wope: 以這幾篇看下來 ANOVA可能是比較好的方式 03/06 15:26
→ wope: 不過我很想問為什麼不直接算相關係數? 03/06 15:29
→ wope: 等等 這裡有三個變量 國家 成績 班會 03/06 15:37
→ wope: "成績"的組別之間(什麼變量?)有無顯著差異 03/06 15:40
→ wope: "不同組的國家"在"參與次數上到底有無顯著差異"與分數無關? 03/06 15:43
→ wope: 這三個變量你想怎麼表達之間的關係 之後再決定統計方法 03/06 16:01
抱歉 W大
上頭我把兩個例子混在一起講了,造成你的誤解
國家那個是一個例子
成績則是另一個例子
我再重新改寫整理一下
※ 編輯: winchin (112.105.52.36), 03/06/2015 18:43:13
※ 編輯: winchin (112.105.52.36), 03/06/2015 18:56:04
※ 編輯: winchin (112.105.52.36), 03/06/2015 18:57:55
→ coldwind0912: 其實 閱讀你的說法 我會產生一點疑問.... 03/06 23:07
→ coldwind0912: 倘若只是單純想驗證 成績→活動參與 關係是否確立 03/06 23:08
→ coldwind0912: 而並不在乎其是否為真實因果或虛假關係 03/06 23:08
→ coldwind0912: 那你就直接進行迴歸預測就好阿 看解釋量有多高阿 03/06 23:09
感謝C大的回應
不過難題在於,成績這個變項並不是連續變數
而是分成三組的類別變項(成績好、中、差)
是可以把成績轉成虛擬變項
但這樣只能看到解釋量有多少
無法知道 成績好的組別之參與量是否顯著大於其他組
→ coldwind0912: 如果達到統計顯著性 又有實務顯著性 那就驗證完畢了 03/06 23:10
→ coldwind0912: 反之 如果"成績→活動參與"在過去研究被認為是因果 03/06 23:10
→ coldwind0912: 而想推翻 最直觀就是驗證 活動參與→成績 是否成立 03/06 23:12
→ coldwind0912: 如果 反向路徑也存在 那表示原本的關係並非因果阿 03/06 23:12
→ coldwind0912: 另外 上面原po和w大的討論 我不曉得有沒有認知錯誤? 03/06 23:13
→ coldwind0912: 如果要把三個變量:國家.成績.班會 同時分析.... 03/06 23:14
→ coldwind0912: 除了時間跨度的問題 你更應該考量hierarchy的問題吧 03/06 23:15
→ coldwind0912: 這些變項擺一起 hierarchy的問題比時間跨度重要多了 03/06 23:16
→ wope: C大 其實我看得有點亂 成績與活動 我看不出放棄迴歸預測的 03/07 03:58
→ wope: 理由 03/07 03:58
→ wope: 再來 迴歸預測 可放入前人理論做非線性 迴歸預測 03/07 03:59
→ wope: 第三 如果收到的資料非高斯場 還可以放棄高斯假設 03/07 04:00
→ wope: 如果要做 非高斯+非線性+前人研究 的ANOVA 會出人命的(計算 03/07 04:10
→ wope: 效率太差) 03/07 04:10
→ wope: 如果3變量一起考慮 可以推估收不到資料國家的回歸線 03/07 04:15
→ wope: 這時的統計與一般統計最大差異 從一個值 變成一個函數 03/07 04:18
→ wope: 回到原Po的問題 時間跨度 一定可放入考慮 只是怎麼考慮而以 03/07 04:23
抱歉 我把話題拖得太長,讓大家看不清楚問題點
其實我說了這麼多,只是想了解一件事:
如果我是用邏輯2的角度來做研究
只想了解這三個成績組別間是否有顯著的差異
那變項的時間跨度是否一定要相同?
若前面的變項(成績好、中、差,名為自變項)是2013-2014
後面的變項(參與班會的次數,名為依變項)是2010-2014
在邏輯2裏頭,是否可行??
→ wope: 在非線性高斯場依變數的cov 有個手法叫first order second m 03/07 04:25
→ wope: oment 03/07 04:25
→ wope: 總是可以估計Cov的值 03/07 04:26
→ wope: 而且對之前班會與之後班會的相關性都可抓出來 03/07 04:29
→ wope: 最後 如果帶線性高斯場 Cov的比值就是迴歸係數的斜率 03/07 04:31
→ wope: 除非前人有說就是線性相關 不然迴歸預測強太多了 03/07 04:32
→ wope: (跟課本上的Anova比) 03/07 04:35
→ wope: 不知道原po有沒有考慮把前班會與後班會當成兩個事件(非獨立) 03/07 04:46
→ wope: 這樣時間影響都可以抓出來 03/07 04:46
→ wope: 不過原Po好像很喜歡Anova 03/07 04:50
→ wope: 因為我對Anova不熟 所以不確定可以做到怎樣 03/07 04:51
→ wope: 原po是想討論三變量中 兩兩的邊際機率密度函數嗎? 不然第三 03/07 05:03
→ wope: 變量如何不看? 03/07 05:03
→ coldwind0912: 我沒有說放棄迴歸阿!? 驗證因果關係 迴歸還是比較好 03/07 15:28
→ coldwind0912: 我只是舉例用反向求迴歸結果 來否證因果阿 03/07 15:28
→ coldwind0912: 當然 非線性也是檢驗方式 只是我們並不了解原po例子 03/07 15:30
→ coldwind0912: 前人的研究是認為線性or非線性 所以 我提出用反向 03/07 15:30
其實,前人的研究只是提出一個"描述性的論述"
沒有用到量化分析
因此也沒提及線性或非線性之類的面向
→ coldwind0912: 至於hierarchy 我以為原po還想把國家的變項放進來 03/07 15:31
→ coldwind0912: 國家.活動.成績 這些變項的位階並不一樣吧~ 03/07 15:31
痾....其實只有兩個變項
國家和成績是不同的例子....= =
一個是:不同組別的國家 和 參與量
另一個是:學生成績 和 學生的活動參與量
這是兩個例子
※ 編輯: winchin (112.105.52.36), 03/08/2015 01:18:11
※ 編輯: winchin (112.105.52.36), 03/08/2015 01:34:26
→ wope: 把後面變項拆成 2010-1012 及 2013-2014 03/09 14:13
→ wope: 然後與前面的變項分別做ANOVA -->去說明時間變量有關或無關 03/09 14:15
→ wope: 若無關 再用後面變項2010-2014與前變量再做一次 03/09 14:16
→ wope: 若有關-->就要加入其他的機制來考濾 03/09 14:17
→ wope: 可是我的疑問是為什麼不直接算相關係數 03/09 14:19
→ wope: 每年的相關性就都可以抓出來 03/09 14:20
→ wope: 拿相關性最高的那年來做研究 不是更有說服力 03/09 14:23
→ wope: 順便也可以得到隨時間的衰退 03/09 14:25
→ wope: 隨時間的衰退如果做得出來 那跨度就著這個衰退比例給進去 03/09 14:27
→ wope: 這樣論文應該會多出很多東西(如果成功做出來的話) 03/09 14:30