作者tlm (Go ahead Ajax!)
看板Psychology95
標題[心統] Normal approximation of T distribution
時間Sat May 3 01:23:27 2003
上個禮拜的心統課翁老師開始進入無母數統計法的部分
她很快的介紹完了Wilcoxon Matched-pairs Signed Rank Test的使用方式
在最後要查表與T分配臨界值作比較的時候
我們發現該表的N值只有從1到50
而老師在筆記第7點補充說:
For N>50, use normal approximation: T ~ N( N(N+1)/4 , N(N+1)(2N+1)/24 )
當然 必須使用無母數統計法而N又大於50的情況應該並不常見
就實用上來說這不會是很重要的部分(感覺上老師也只是提一下讓我們知道有這麼回事)
但是對比較敏感(或是數字直覺比較強)的同學而言
應該都會發現一件相當有趣的事
就是那個常態分配的平均正好是Σk的1/2, 而變異數正好是Σk^2的1/4
對於一個逼近的抽樣分配來說...這似乎太"純粹"了...但又一點都不"直觀"
究竟只是巧合...還是真的有什麼相關的原理...
我實在好奇的不得了(一定不只我一個人好奇~)
所以一下課就去問老師
而老師並沒有辦法立刻回答這個問題
今天上課老師說上次問Wilcoxon的下課找她
老師找來了一張資料講解給我聽...正是有關問題的解答...果然有深一層涵義
那份資料看來還有點抽象 我自己再消化了一下
發現的確以很簡單的方式就可表達
而這也是值得大家都試著了解的問題~
-----------------------------------------------------------------------------
我們在做Wilcoxon signed rank test的時候 要先將資料(A-B)排序 再將取正與取負
的排序分別加起來 然後取絕對值較小的做為Tobt 我們在此假設取正的排序的總和為
Tobt值
這N筆資料的排序為1、2、3、...、N 我們可以將Tobt值以下列的方式表示:
Tobt = S = 1‧C1 + 2‧C2 + 3‧C3 + ... + N‧Cn = Σ(rank)(Cj)
其中 當rank為正值, Cj=1
當rank為負值, Cj=0
於是這個S的確代表取正的排序的總和
如果虛無假設確實成立的話 就表示每一個rank是取正值還是負值的機會差不多 也就
是說 每一個Cj的期望值(平均)是1/2:
E(Cj) = 1/2 = p
因此S的期望值(平均)就是 E(S) = 1/2(1 + 2 + 3 + ... + N) = (Σk)/2
又在此Cj是一個binomial sampling (Cj只有0或1兩種可能) 所以變異數即為pq:
Var(Cj) = 1/2 x 1/2 = 1/4
因此S的變異數就是 Var(S) = 1/4(1^2 + 2^2 + 3^2 + ... + N^2) = (Σk^2)/4
當然 這樣的S會來自一個常態分配的母群( N(N+1)/4 , N(N+1)(2N+1)/24 )
..........有關更多資料 可見Nonparametric Statistics, Lehmann 1975
-----------------------------------------------------------------------------
在rank的求和當中 是假設rank皆為整數才可以以上面的公式表示 但是我們知道 有
tied rank(tied average)的存在 可能會使得rank不全為整數 所以上面的常態分配
當然只能說是一種近似啦~ (也許還有其他理由...)
在看了資料的推導之後
我覺得最難想到的就是Cj的概念
不過 整體來說
這個推導都是用到我們已學過的知識
我覺得這給了我不少複習與觀念上的整合
所以說
雖然我們統計似乎學的還不久、還不深
但要是有心的話
仍然能了解或解決更深入的問題...
更重要的是
它滿足了我的好奇心~
希望這些對其他同學也能多少有些幫助
如果上面經過我個人理解表達的部分
出現了什麼錯誤的話...一定要指正喔^^
或是有人能問更有趣的問題......
--
※ 發信站: 批踢踢實業坊(ptt.csie.ntu.edu.tw)
◆ From: 218.160.24.137
→ zerox:我的數字直覺不敏感...這是在寫啥? @@a 推 218.166.129.37 05/03
→ mina1002:你好利害... @_@ 推 203.133.30.225 05/03