作者yhliu (老怪物)
看板Math
標題Re: [機統] 自由度的意義
時間Thu Nov 24 10:54:19 2022
※ 引述《attack2000 (柏修斯)》之銘言:
: 感謝之前許多鄉民回覆關於我Lagrange Multiplier的問題
: 甚至還有人寄信到我的信箱,真的非常感謝
: 這次要問的是關於自由度(the degree of freedom)的問題
: 我們課本中只有告訴我們取變異數時要引用自由度的概念
: 卻沒有詳細告訴我們為什麼要有自由度
: 因為我們的課本是分析相關的,而非專業的統計課本
: 所以許多統計的概念會寫的比較簡略
:
: 關於自由度,我只能大概知道它是樣本中獨立或自由變化的數據的個數
: 卻不太能理解它在統計上的意義為何
: 希望板友能盡可能簡單地告訴我,謝謝。
: 另外,還請板友推薦我一些比較基礎的統計課本
: 不然我念我那本分析課本真的覺得念不太下去
: 感謝板友
統計上 "自由度" 來源自卡方分布。卡方變量的定義是
X^2 = Σ_{i=1~r} Zi^2
其中 Zi, i=1,...,r, 是 r 個相互獨立的標準常態變量,
這樣的 X^2 是具有 r 個自由度的卡方變量 (具卡方分布)。
其次看樣本變異數 s^2 = Σ(Xi-Xbar)^2/(n-1), 其中 Xi
是 i.i.d. N(μ,σ^2) 變量。則
(n-1)s^2/σ^2 = Σ(Xi-Xbar)^2/σ^2
可以經線性轉換變成 n-1 個 i.i.d. 標準常態變量的平方
和,所以說樣本變異數有 n-1 個自由度。
統計上很常用的 t 統計量,其最簡單形式是
t = (Xbar - μ)/√(s/n)
自由度 r 的 t 變量的數學定義是
T = Z/√(w/r)
其中 Z 是標準常態變量,與卡方變量 W 機率獨立。而前
面的 t 可以表示成
t = (√n(Xbar - μ)/σ)/√((Σ(Xi-Xbar)^2/σ^2)/(n-1))
可證得在常態群體, Xbar 與 s^2 獨立,也就是說 "/"
的左邊 (是一個標準常態變量) 與右邊根號內 (是一個卡
方變量除以其自由度) 相互獨立, 所以是 n-1 自由度的 t
變量。
F 變量是 (X^2/r1)/(Y^2/r2) 其中 X^2 與 Y^2 獨立,
分別 r1, r2 自由度的卡方。所以 F 分布會有兩個自由
度數值,因為它是由兩個卡方變量所決定的。
再深一層看,如果 Y 是一個具多變量常態分布 N(0,V)
的隨機向量,一個二次式 Y'AY (其中 A 是非負碓定對稱
矩陣) 若滿足
VAVAV = VAV
將具有自由度 rank(VA) 的卡方分布。這是線性模型 (含
迴歸模型,實驗設計楔型) 裡常需要的基本定理;此外還
有兩二次式相互獨立的條件: VAVBV = 0. 在前述 i.i.d.
諸 Xi 的例子,V=(σ^2)I, Xbar-μ = (J/n)'(X-μJ),
式中 J 是元素都是 1 的行向量 (J' 就是列向量),而
Σ(Xi-Xbar)^2 = (X-μJ)'(I-JJ'/n)(X-μJ)
可以得
(J/n)'(I-JJ'/n) = 0 且 (I-JJ'/n)^2 = (I-JJ'/n),
前者是 Xbar 與 Σ(Xi-Xbar)^2 獨立的條件,後者是
Σ(Xi-Xbar)^2/σ^2 服從卡方分布的條件,而
rank(I-JJ'/n) = n-1.
至於列聯表的卡方統計量,在大樣本時能應用卡方檢定,
是緣於二項分布漸近常態分布,多項分布漸近多變量常態
分布。而其自由度的決定,亦如同前述多變量常態分布二
次式與卡方分布的關係一般。
上面 "自由度" 被矩陣的 rank 所定義,但實際上它就是:
二次式中自由變量的個數。如樣本變異數的核心 Σ(Xi-Xbar)^2
雖有 n 個組成二次式的變量 Xi-Xbar, 但因有 Σ(Xi-Xbar) = 0
的 "限制", 所以其實只有 n-1 個獨立變量,也就是譇
Xi-Xbar 其中 n-1 個決定了,第 n 個也就決定了。又如
二變項列聯表獨立性檢定卡方統計量
ΣΣ(n(ij)-m(ij))^2/m(ij)
有 rc 個二次項,但因
Σ_i (n(ij)-m(ij)) = 0 for all j
Σ_j (n(ij)-m(ij)) = 0 for all i
共有 r+c-1 個實質的限制,因此這 rc 個二次項實際只有
rc-(r+c-1) = (r-1)(c-1)
個自由度。
對數概度比 (log likelihood ratio) 檢定統計量在大樣
本也涉及卡方,其實也是中央極限定理的應用。設
H0: test model M0, H1: whole model M
兩者各以其參數的 MLE 代入計算概似度,求比,然後轉
成對數。這就是對數概度比統計量,可以漸近等同 M 中
m 個參數 MLE 與參數值離差 (漸近 m 變量常態) 的二次
式,但因有 M0 中實質 k 個參數之 MLE 的抵消,相當於
有 k 個實質限制式,所以最後概度比統計量有 m-k 個自
由度,也就是 M 比 M0 實際多出的參數。
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 61.224.131.124 (臺灣)
※ 文章網址: https://www.ptt.cc/bbs/Math/M.1669258462.A.312.html
推 attack2000 : 感謝回覆 11/25 08:51
推 recorriendo : 推 老師這篇太專業 11/25 17:10
※ 編輯: yhliu (61.224.129.62 臺灣), 11/27/2022 08:02:13