看到版上一篇舊文, 有人大扯甚麼卡方檢定是無母數檢定
的理由是源自概度比統計量, 還說 Pearson卡方統計量就
是由概度比檢定而來的.
雖然也有所謂 nonparametric likelihood, 但 GLR 統計
量與卡方扯上關係, 根本與無母數不相干! 可以說: 既是
無母數, 你的 likelihood 又是如何來的?
再者, 說 Pearson 卡方來自 likelihood ratio, 不怕老
皮跨越時空來掐死你嗎?
(去查一查 K. Pearson 與 R. A. Fisher 的故事吧!)
事實上在類別資料分析及廣義線模中, 由概度比統計量得
到的近似卡方統計量 (-2(log-likelihood-ratio)) 稱之
為 G^2, 與 Pearson 卡方只是
"當虛無假說成立時兩者漸近相等"
為以上緣故, 把一篇舊文拿來貼:
時間 Thu Jun 15, 2000
※ 引述《yhliu (需要休息的老怪物)》之銘言:
: 至於配合適度檢定, 列聯表分析, 或其他類別資料 (離
: 散資料) 分析中的卡方檢定, 都是因為多項分布當 n 很
: 大時會接近多變量常態分布; 再利用 (2) 而得到 "漸近
: 服從卡方分布" 的結論。
卡方檢定的原理, 一方面涉及統計量的分布 --- 大樣本
漸近分布 --- 如上述; 另方面涉及 "良好檢定" 的理論,
在這裡不談。
除此之外, 卡方檢定有甚麼可談的呢?
以配合適度檢定來說, 設觀測次數為 n(1),...,n(k),
n=n(1)+...+n(k). 在適當條件下, 這些 n(i) 聯合服從
多項分布 Multinomial(n; p(1),...,p(k))。
所以, 理論上第 i 個格子應該有 m(i)=np(i) 這麼多個
觀測值; 但我們實際上看到的是 n(i)。
如果樣本數 n 是隨機決定的, 而且是服從卜瓦松分布,
則 n(1),...,n(k) 變成相互獨立的卜瓦松變量 --- 這
是 "類別資料分析" 的書或課程可能提到, 但一般統計
學較少提到的.
因此, 我們可在 n(i)~Poisson(m(i)), 且相互獨立,
這個架構下來看配合適度檢定的問題.
當 m(i) 很大時, n(i) 接近常態. 也就是說: 標準化後
它的分布會接近 N(0,1)。而由前面對卡方分布的說明, ← 那是另一篇
我們可知 (n(i)-m(i))^2/m(i) 會接近卡方, df=1。
如果 n~Poisson(m), m=m(1)+...+m(k), 其中 m(i) 都
已知, 則卡方統計量
\sum (n(i)-m(i))^2/m(i), ← "\sum" 即是加總.
依前面的討論來看, 應該是接近 chi-squared, df=k.
但事實上或者 n 固定, 或者 m 要用 n 估計, 所以離差
n(1)-m(1), n(2)-m(2),....,n(k)-m(k), 要滿足 "總和
為 0" 的這一個條件。因此, 就像在常態群體之樣本變
異數 S^2 一樣, 自由度少了 1, 所以, 若p(1),...,p(k)
機率已知 (在 Poisson 模型, p(i)=m(i)/m) 則上述卡
方統計量的自由度是 k-1。
實際的問題, m(i) 可能要用一些參數來界定. 例如 m(i)
可能是由常態分布算出來的, 但常態分布的平均數和標
準差估計, 所以 m(i) 實際上是未知的。
當模型中有一個參數用資料估計時, 離差量
d(1)=n(1)-m(1), d(2)=n(2)-m(2),....,d(k)=n(k)-m(k)
就多了一個限制式。因此這些離差量看成 R^k 中的一個
點, 是在一個低於 k 維的子空間的。如前面只有 m 需
要估計, 或 n 固定時, 離差是在一個 k-1 維子空間上
的。k=3 時, (d(1),d(2),d(3)) 滿足
d(1)+d(2)+d(3)=0,
是在一個平面上。若再加一個限制, 例如
d(1)-d(3)=0
則 (d(1),d(2),d(3)) 事實上被限制在一條直線上。
因此, 配合適度檢定 (n 固定) 在沒有參數需估計時,
是用 df=k-1 的卡方; 但有參數要估計時, df=k-1-p,
其中 p 是估計的參數個數。
前面談卡方統計量, 是假設 n~Poisson(m); 但在討論
自由度時, 忽而用 Poisson 模式而說 m 要估計, 忽而
又說 n 固定。這...這究竟哪個是對的?
實況是: 假設 n~Poisson(m) 而 m 要估計, 則 m 的估
計量是 n。結果是: 在做一些統計推論時, 和 n 固定的
效果是相同的 --- 這涉及一些機率和數理統計的東西,
我們就不談了! 我們就直接接受這個事實: 將 (n(1),...,n(k))
看成是 multinomial(n,p(1),..,p(k)), 與將 n(i) 看
成是相互獨立的 Poisson(m(i)), 而用
n=n(1)+...+n(k) 估計 m=m(1)+...+m(k)
則卡方統計量等等, 都是一樣的。
因為這個緣故, 前文採用 Poisson 模型解釋卡方統計量
的來源; 但若直接用 multinomial 模型, 應用大樣本二
次式近似卡方的想法, 也可導出相同的卡方統計量, 只
是較費事罷了!
我們將上述結果用在列聯表獨立性檢定問題, 以結束這
整個主題.
對一個 IxJ 列聯表, n(i,j), i=1,...,I, j=1,...,J,
觀測總數 n, 細格機率 p(i,j), m(i,j)=n p(i,j). 這
樣的架構, 和前述配合適度檢定問題, 基本上沒有差別!
不同的是問題---也就是 p(i,j) 如何決定的。
在一維分布的配合適度檢定, 如先前所談的, 可能是固
定機率分布, 配合常態分布, 配合卜瓦松分布等等。而
在列聯表的問題, 我們所要檢定的, 可能是
p(i,j)=p1(i)p2(j)
這樣的 "分布" --- 沒有指明特定的邊際分布, 只有對
這分布的一些條件 --- 事實上, 配合常態, 配合卜瓦松
分布等, 也都可看成和上述所謂 "獨立性" 條件一樣,
只是在規範 p(i,j) (或先前的 p(i)) 的構造。
上述 p(i,j)=p1(i)p2(j) 中的 p1(i)=\sum_j p(i,j), ← "\sum" 即是加總.
p2(j)=\sum_i p(i,j). 因 p1(i), p2(j) 未指定, 所以
要用資料估計。而 p(i) 對 i 加總為 1; p(j) 對 j 加
總也是, 所以實際上要估計 (I-1)+(J-1) 個未知參數。
於是, 依前文所談的原理, 卡方統計量的自由度, 或說是
IJ 個離差的自由度, 是
(IJ-1)-[(I-1)+(J-1)] = (I-1)(J-1)
有的列聯表是列和或行和固定的, 這情形就像前面對 n
固定或隨機而需要估計其參數一樣, 結論是: 不影響我
們所要做的統計推論。因此, 用同樣的卡方統計量, 同
樣的自由度。
--
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 163.15.188.87