卡方檢定?

作者yhliu (老怪物)

看板Statistics

標題卡方檢定?

時間Sat Jan 13 12:40:48 2007

看到版上一篇舊文, 有人大扯甚麼卡方檢定是無母數檢定的理由是源自概度比統計量, 還說 Pearson卡方統計量就是由概度比檢定而來的. 雖然也有所謂 nonparametric likelihood, 但 GLR 統計量與卡方扯上關係, 根本與無母數不相干! 可以說: 既是無母數, 你的 likelihood 又是如何來的? 再者, 說 Pearson 卡方來自 likelihood ratio, 不怕老皮跨越時空來掐死你嗎? (去查一查 K. Pearson 與 R. A. Fisher 的故事吧!) 事實上在類別資料分析及廣義線模中, 由概度比統計量得到的近似卡方統計量 (-2(log-likelihood-ratio)) 稱之為 G^2, 與 Pearson 卡方只是 "當虛無假說成立時兩者漸近相等" 為以上緣故, 把一篇舊文拿來貼: 時間 Thu Jun 15, 2000 ※ 引述《yhliu (需要休息的老怪物)》之銘言： : 至於配合適度檢定, 列聯表分析, 或其他類別資料 (離 : 散資料) 分析中的卡方檢定, 都是因為多項分布當 n 很 : 大時會接近多變量常態分布; 再利用 (2) 而得到 "漸近 : 服從卡方分布" 的結論。卡方檢定的原理, 一方面涉及統計量的分布 --- 大樣本漸近分布 --- 如上述; 另方面涉及 "良好檢定" 的理論, 在這裡不談。除此之外, 卡方檢定有甚麼可談的呢? 以配合適度檢定來說, 設觀測次數為 n(1),...,n(k), n=n(1)+...+n(k). 在適當條件下, 這些 n(i) 聯合服從多項分布 Multinomial(n; p(1),...,p(k))。所以, 理論上第 i 個格子應該有 m(i)=np(i) 這麼多個觀測值; 但我們實際上看到的是 n(i)。如果樣本數 n 是隨機決定的, 而且是服從卜瓦松分布, 則 n(1),...,n(k) 變成相互獨立的卜瓦松變量 --- 這是 "類別資料分析" 的書或課程可能提到, 但一般統計學較少提到的. 因此, 我們可在 n(i)～Poisson(m(i)), 且相互獨立, 這個架構下來看配合適度檢定的問題. 當 m(i) 很大時, n(i) 接近常態. 也就是說: 標準化後它的分布會接近 N(0,1)。而由前面對卡方分布的說明, ← 那是另一篇我們可知 (n(i)-m(i))^2/m(i) 會接近卡方, df=1。如果 n～Poisson(m), m=m(1)+...+m(k), 其中 m(i) 都已知, 則卡方統計量 \sum (n(i)-m(i))^2/m(i), ← "\sum" 即是加總. 依前面的討論來看, 應該是接近 chi-squared, df=k. 但事實上或者 n 固定, 或者 m 要用 n 估計, 所以離差 n(1)-m(1), n(2)-m(2),....,n(k)-m(k), 要滿足 "總和為 0" 的這一個條件。因此, 就像在常態群體之樣本變異數 S^2 一樣, 自由度少了 1, 所以, 若p(1),...,p(k) 機率已知 (在 Poisson 模型, p(i)=m(i)/m) 則上述卡方統計量的自由度是 k-1。實際的問題, m(i) 可能要用一些參數來界定. 例如 m(i) 可能是由常態分布算出來的, 但常態分布的平均數和標準差估計, 所以 m(i) 實際上是未知的。當模型中有一個參數用資料估計時, 離差量 d(1)=n(1)-m(1), d(2)=n(2)-m(2),....,d(k)=n(k)-m(k) 就多了一個限制式。因此這些離差量看成 R^k 中的一個點, 是在一個低於 k 維的子空間的。如前面只有 m 需要估計, 或 n 固定時, 離差是在一個 k-1 維子空間上的。k=3 時, (d(1),d(2),d(3)) 滿足 d(1)+d(2)+d(3)=0, 是在一個平面上。若再加一個限制, 例如 d(1)-d(3)=0 則 (d(1),d(2),d(3)) 事實上被限制在一條直線上。因此, 配合適度檢定 (n 固定) 在沒有參數需估計時, 是用 df=k-1 的卡方; 但有參數要估計時, df=k-1-p, 其中 p 是估計的參數個數。前面談卡方統計量, 是假設 n～Poisson(m); 但在討論自由度時, 忽而用 Poisson 模式而說 m 要估計, 忽而又說 n 固定。這...這究竟哪個是對的? 實況是: 假設 n～Poisson(m) 而 m 要估計, 則 m 的估計量是 n。結果是: 在做一些統計推論時, 和 n 固定的效果是相同的 --- 這涉及一些機率和數理統計的東西, 我們就不談了! 我們就直接接受這個事實: 將 (n(1),...,n(k)) 看成是 multinomial(n,p(1),..,p(k)), 與將 n(i) 看成是相互獨立的 Poisson(m(i)), 而用 n=n(1)+...+n(k) 估計 m=m(1)+...+m(k) 則卡方統計量等等, 都是一樣的。因為這個緣故, 前文採用 Poisson 模型解釋卡方統計量的來源; 但若直接用 multinomial 模型, 應用大樣本二次式近似卡方的想法, 也可導出相同的卡方統計量, 只是較費事罷了! 我們將上述結果用在列聯表獨立性檢定問題, 以結束這整個主題. 對一個 IxJ 列聯表, n(i,j), i=1,...,I, j=1,...,J, 觀測總數 n, 細格機率 p(i,j), m(i,j)=n p(i,j). 這樣的架構, 和前述配合適度檢定問題, 基本上沒有差別! 不同的是問題---也就是 p(i,j) 如何決定的。在一維分布的配合適度檢定, 如先前所談的, 可能是固定機率分布, 配合常態分布, 配合卜瓦松分布等等。而在列聯表的問題, 我們所要檢定的, 可能是 p(i,j)=p1(i)p2(j) 這樣的 "分布" --- 沒有指明特定的邊際分布, 只有對這分布的一些條件 --- 事實上, 配合常態, 配合卜瓦松分布等, 也都可看成和上述所謂 "獨立性" 條件一樣, 只是在規範 p(i,j) (或先前的 p(i)) 的構造。上述 p(i,j)=p1(i)p2(j) 中的 p1(i)=\sum_j p(i,j), ← "\sum" 即是加總. p2(j)=\sum_i p(i,j). 因 p1(i), p2(j) 未指定, 所以要用資料估計。而 p(i) 對 i 加總為 1; p(j) 對 j 加總也是, 所以實際上要估計 (I-1)+(J-1) 個未知參數。於是, 依前文所談的原理, 卡方統計量的自由度, 或說是 IJ 個離差的自由度, 是 (IJ-1)-[(I-1)+(J-1)] = (I-1)(J-1) 有的列聯表是列和或行和固定的, 這情形就像前面對 n 固定或隨機而需要估計其參數一樣, 結論是: 不影響我們所要做的統計推論。因此, 用同樣的卡方統計量, 同樣的自由度。 -- -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 163.15.188.87