看板 Math 關於我們 聯絡資訊
※ 引述《attack2000 (柏修斯)》之銘言: : 感謝之前許多鄉民回覆關於我Lagrange Multiplier的問題 : 甚至還有人寄信到我的信箱,真的非常感謝 : 這次要問的是關於自由度(the degree of freedom)的問題 : 我們課本中只有告訴我們取變異數時要引用自由度的概念 : 卻沒有詳細告訴我們為什麼要有自由度 : 因為我們的課本是分析相關的,而非專業的統計課本 : 所以許多統計的概念會寫的比較簡略 : : 關於自由度,我只能大概知道它是樣本中獨立或自由變化的數據的個數 : 卻不太能理解它在統計上的意義為何 : 希望板友能盡可能簡單地告訴我,謝謝。 : 另外,還請板友推薦我一些比較基礎的統計課本 : 不然我念我那本分析課本真的覺得念不太下去 : 感謝板友 統計上 "自由度" 來源自卡方分布。卡方變量的定義是 X^2 = Σ_{i=1~r} Zi^2 其中 Zi, i=1,...,r, 是 r 個相互獨立的標準常態變量, 這樣的 X^2 是具有 r 個自由度的卡方變量 (具卡方分布)。 其次看樣本變異數 s^2 = Σ(Xi-Xbar)^2/(n-1), 其中 Xi 是 i.i.d. N(μ,σ^2) 變量。則 (n-1)s^2/σ^2 = Σ(Xi-Xbar)^2/σ^2 可以經線性轉換變成 n-1 個 i.i.d. 標準常態變量的平方 和,所以說樣本變異數有 n-1 個自由度。 統計上很常用的 t 統計量,其最簡單形式是 t = (Xbar - μ)/√(s/n) 自由度 r 的 t 變量的數學定義是 T = Z/√(w/r) 其中 Z 是標準常態變量,與卡方變量 W 機率獨立。而前 面的 t 可以表示成 t = (√n(Xbar - μ)/σ)/√((Σ(Xi-Xbar)^2/σ^2)/(n-1)) 可證得在常態群體, Xbar 與 s^2 獨立,也就是說 "/" 的左邊 (是一個標準常態變量) 與右邊根號內 (是一個卡 方變量除以其自由度) 相互獨立, 所以是 n-1 自由度的 t 變量。 F 變量是 (X^2/r1)/(Y^2/r2) 其中 X^2 與 Y^2 獨立, 分別 r1, r2 自由度的卡方。所以 F 分布會有兩個自由 度數值,因為它是由兩個卡方變量所決定的。 再深一層看,如果 Y 是一個具多變量常態分布 N(0,V) 的隨機向量,一個二次式 Y'AY (其中 A 是非負碓定對稱 矩陣) 若滿足 VAVAV = VAV 將具有自由度 rank(VA) 的卡方分布。這是線性模型 (含 迴歸模型,實驗設計楔型) 裡常需要的基本定理;此外還 有兩二次式相互獨立的條件: VAVBV = 0. 在前述 i.i.d. 諸 Xi 的例子,V=(σ^2)I, Xbar-μ = (J/n)'(X-μJ), 式中 J 是元素都是 1 的行向量 (J' 就是列向量),而   Σ(Xi-Xbar)^2 = (X-μJ)'(I-JJ'/n)(X-μJ) 可以得 (J/n)'(I-JJ'/n) = 0 且 (I-JJ'/n)^2 = (I-JJ'/n), 前者是 Xbar 與 Σ(Xi-Xbar)^2 獨立的條件,後者是 Σ(Xi-Xbar)^2/σ^2 服從卡方分布的條件,而 rank(I-JJ'/n) = n-1. 至於列聯表的卡方統計量,在大樣本時能應用卡方檢定, 是緣於二項分布漸近常態分布,多項分布漸近多變量常態 分布。而其自由度的決定,亦如同前述多變量常態分布二 次式與卡方分布的關係一般。 上面 "自由度" 被矩陣的 rank 所定義,但實際上它就是: 二次式中自由變量的個數。如樣本變異數的核心 Σ(Xi-Xbar)^2 雖有 n 個組成二次式的變量 Xi-Xbar, 但因有 Σ(Xi-Xbar) = 0 的 "限制", 所以其實只有 n-1 個獨立變量,也就是譇 Xi-Xbar 其中 n-1 個決定了,第 n 個也就決定了。又如 二變項列聯表獨立性檢定卡方統計量 ΣΣ(n(ij)-m(ij))^2/m(ij) 有 rc 個二次項,但因 Σ_i (n(ij)-m(ij)) = 0 for all j Σ_j (n(ij)-m(ij)) = 0 for all i 共有 r+c-1 個實質的限制,因此這 rc 個二次項實際只有 rc-(r+c-1) = (r-1)(c-1) 個自由度。 對數概度比 (log likelihood ratio) 檢定統計量在大樣 本也涉及卡方,其實也是中央極限定理的應用。設 H0: test model M0, H1: whole model M 兩者各以其參數的 MLE 代入計算概似度,求比,然後轉 成對數。這就是對數概度比統計量,可以漸近等同 M 中 m 個參數 MLE 與參數值離差 (漸近 m 變量常態) 的二次 式,但因有 M0 中實質 k 個參數之 MLE 的抵消,相當於 有 k 個實質限制式,所以最後概度比統計量有 m-k 個自 由度,也就是 M 比 M0 實際多出的參數。 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 61.224.131.124 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Math/M.1669258462.A.312.html
attack2000 : 感謝回覆 11/25 08:51
recorriendo : 推 老師這篇太專業 11/25 17:10
※ 編輯: yhliu (61.224.129.62 臺灣), 11/27/2022 08:02:13