作者microball (老公公鼠...)
看板Math
標題Re: 請問標準差分母的n和相關係數分母的n?
時間Fri Jun 24 20:05:13 2005
以下 是以前寫的文章
有錯請指正^^b 多謝
作者 microball (研究院路的紫薇花)
標題 [統計] 標準差的無偏估值(unbias estimate)
時間 Sat Nov 6 01:01:45 2004
───────────────────────────────────────
一. 基本觀念
統計學的重要功用之一,就是從局部推測全體的性質
局部的資料,我們稱為 "樣本(sample)"
全體的資料,我們稱為 "族群(population)"
通常全體的資料是無法取得的,
我們希望從一小部份的樣品,推測全體的性質,是需要理論基礎的。
我們把樣品的值,稱做 「估計量(estimate)」
也就是用來估計「全體性質」的量。
在我們進入理論推導前,還要說明「取樣」的方式
最常見的就是「隨機取樣」(simple random sampling, s.r.s)
簡單的說,就是母群體中每個資料點被取到機率相同。
最後說明一下notation:
μ:母體平均 σ:母體標準差
X:樣本平均 λ:樣本的標準差 S^2:母體標準差的unbias estimate
P(X=k) 隨機變數X 等於k的機率
E(X): 隨機變數X 的期望值
Var(X):隨機變數X 的變方 = E(X^2) - [E(X)]^2
*
我們先做個簡單的例子,說明如何估計母體的平均值μ
假設群體可能很多資料點,稱做p1, p2,...pn (n通常很大)
這些資料點的值可以相同或不同,
取樣的結果,呈現某個機率分布。
我們現在從n個資料中,取出 k 個來作為樣品 (k遠小於n)
每個取樣的值都是隨機變數,稱做 X1,X2,...Xk
[Lemma 01] E(Xi)=μ, V(Xi)=σ^2
pf : (我們證離散的情形,連續的情形其證明差不多)
假設母體中,有些資料點p的值可能是相同的,
我們把不同的值,稱做 u1,u2,...um (m<=n 因為有些值可能是相同的)
等於 ui 的資料點有 vi個, (vi總合為n)
P(Xi = uj) = vj/n 因為機率均等。
因此,E(Xi) = Σ uj* P(Xi=uj) = (1/n)* Σ uj*vj = (1/n)* nμ = μ
j=1~m j=1~m
(上式最後一個Σ,會等於母群體所有的值相加,也就是nμ)
使用剛剛推導的結果,
Var(Xi) = E(Xi^2) - [E(Xi)]^2
= (1/n)* Σ uj*(vj)^2 - μ^2
j=1~m
= (1/n)* Σ(pj)^2 - μ^2 (注意:把uj,vj用pj代替)
j=1~n
= σ^2 (上式就是σ^2的一種定義) QED
我們證明了,對於隨機取樣的「一個」隨機變數 Xi,
它的平均跟標準差,都跟母體相同
但是我們不可能只取一次 (所謂的平均、標準差,都是多次取樣的結果)
這裡要說清楚一點:隨機取樣的 Xi,是個隨機變數
它一旦取樣,確定了它的值後,就不是隨機變數了。
雖然今天知道 Xi平均、標準差的理論值,
但我們不能藉由把它「取出來」後的值,去「得知」μ和σ
因為我們確定這個值的同時,它也不再是隨機變數了。
*
那要怎麼估計μ和σ呢? 當然就要靠多次的取樣。 我們先講估計μ的方法。
=======================================================================
[Lemma 02] 我們取了k個樣本,令 Y = (X1+...+Xk)/k 是個隨機變數。
則 E(Y) =μ 。
n-k
若每個取樣視為不相等的,Var(Y) = (σ^2) * ------------
n*(n-1)
若每個取樣視為相等的, Var(Y) = (σ^2) /n
========================================================================
你會問說,為什麼取樣有沒有視為相等,會造成不同的結果...?
是這樣的:當我們取樣,但不放回去時,每個取樣不能視為相等的。
如果是取樣,然後放回,再取下一次樣,每個取樣就是相等的了。
如果n很大的時候,放不放回都差不多,
所以可以把取樣都視為相等的。
pf: (同樣,我們證離散的情形)
E(Y) = (1/k)* Σ E(Xi) = (1/k)* kμ = μ
i=1~k
(第一個等號,請查看期望值的定義,是滿足分配率,可以拆開的)
若每個取樣視為不相等的,Var(Y) = (1/k^2)* ΣΣ Cov(Xi,Xj)
i=1~k, j=1~k
Cov(Xi,Xj) = E(XiXj)- E(Xi)*E(Xj),是變方Var 在多個隨機變數時的推廣。
因為我們假設不同的Xi,不是相等的,所以要用Cov
當Xi,Xj是同一個隨機變數時,Cov(Xi,Xj) = Var(Xi)。
*
我們一步一步來算 Cov(Xi,Xj):考慮跟 Lemma 01 中一樣的母群體
先算 E(XiXj) = ΣΣ ui*vj* P(Xi=ui且 Xj=uj)
i=1~m, j=1~m
= Σ ui*P(Xi=ui) Σ vj* P(Xj=uj│Xi=ui) 由貝式定律
i=1~m j=1~m
P(Xj=uj│Xi=ui) = vj /n-1 ,若i≠j (n-1是因為先取了Xi
= (vj-1)/n-1 ,若i=j 取Xj時,母群體少了一個)
接下來是代數運算對決!
ΣΣ ui*vj* P(Xi=ui且 Xj=uj)
i=1~m, j=1~m
vj ui 注意:後面的Σ加總後,
= Σui*(vi/n) { Σ uj*----- - ----- } ꄠ 還有留下含i的項,
i=1~m j=1~m n-1 n-1 給前面的Σ加總。
這裡把i=j時, uj*{(vj-1)/n-1} 寫成 ujvj/(n-1) - uj/(n-1)
接著把後面這項的 uj 巧妙地改成 ui
前面這項 ujvj/(n-1) 是不管i有沒有等於j,都有的
後面減掉的 uj/(n-1) 只有當i=j時才要減去。
我們放了ui在這裡,只有當i=j時,這個對j的Σ,才會把ui算進去。
= Σui*(vi/n) * (nμ -ui)/n-1
i=1~m
1 1
= ------- * { Σ ui*vi*(nμ -ui) } = -------{(nμ)^2 - Σvi*(ui)^2 }
n(n-1) i=1~m n(n-1) i=1~m
(nμ)^2 1
= ------- - -------{(μ^2) + (σ^2)} 這個等式用了 E(X^2) =σ^2-μ^2
n(n-1) n(n-1)
σ^2
= μ^2 - ------
n-1
我們剛剛算的是 E(XiXj),又E(Xi) = E(Xj) = μ
所以 Cov(Xi,Xj) = (-σ^2)/ n-1
*
辛辛苦苦算了Cov(Xi,Xj),要把它加總才得到 Var(Y):
Var(Y) = (1/k^2)* ΣΣ Cov(Xi,Xj)
i=1~k, j=1~k
= (1/k^2)* Σ Var(Xi) + (1/k^2)* Σ Σ Cov(Xi,Xj)
i=1~k i=1~k, j≠i
(這裡單純是用Cov的性質,當 i=j時,Cov = Var)
= (k*σ^2)/ k^2 + {(-σ^2)/ n-1} /k^2
n-k
= (σ^2)* ------- QED
n(n-1)
當每個取樣視為相等時,我們只要去掉Cov項就是結果了。
我們先summery上一篇的結果:由Lemma 02,
設母體有p1,p2,...pn個資料點,平均為μ,標準差為σ。
我們用隨機取樣取了k個樣,分別用隨機變數 X1,X2,...Xk代表
現在令隨機變數 Y =(X1+X2+...+Xk)/k
則 E(Y)=μ Var(Y)= (σ^2)*(n-k) / n(n-1)
*
我們的目標,是求母體標準差的估計值
而且是要「沒有偏差」的估計值(unbias estimate)
那麼,跟我們該如何使用上面做的取樣,來推得σ呢?
一個直觀的想法是:
既然對於隨機變數而言,樣品的平均 = 母體的平均
那麼樣品的標準差(也是隨機變數),會不會等於母體的標準差呢?
答案是:不會。動點腦筋就會發現:
一般而言,取樣越多,總體偏離中心的值就越大,樣品的標準差也越大
極端的case是,當取樣數=1 的時候,樣品標準差 = 0
那麼要怎麼從樣品的標準差,推得母體的標準差呢?
我們先令樣品標準差為λ,定義如下:
λ = (1/k)* Σ(Xi-Y)^2 注意:這個公式很像是一般我們在算母體標準差
i=1~k 但是這裡的Xi和Y,都是隨機變數,不是定值。
因此,λ也是隨機變數。
===================================================================
(k-1)*n
Lemma 03 : E(λ) = (σ^2) ---------
k*(n-1)
===================================================================
E(λ)可以想像成是:我現在做了很多次的取樣,每次都隨機取了 k個,
那麼每次取樣 X1,X2...Xk 去算出的λ,都會不一樣,
但是λ的期望值,會如 Lemma 03 所述。
pf: 先把λ寫成 [(1/n)* Σ(Xi)^2] - Y^2 (這是標準差的另一種形式)
i=1~k
E(λ) = [(1/n)* Σ E(Xi^2)] - E(Y^2)
i=1~k
先算 E(Xi^2) = Var(Xi) + [E(Xi)]^2 (這個公式我們多次使用)
= σ^2 + μ^2 (由Lemma 01 !)
再算 E(Y^2) = Var(Y) + [E(Y)]^2
(σ^2)*(n-k)
= -------------- + μ^2 (由Lemma02 !)
n(n-1)
最後把 E(Xi^2)和 E(Y^2) 代入E(λ),就得到 Lemma03 的結果。 QED
========================================================================
Theorem 01:母體標準差的無偏估值,
以簡單隨機取樣的隨機變數 X1,X2,...Xk表示如下
1
S^2 = ----- Σ(Xi-Y)^2
k-1 i=1~k
========================================================================
pf: 由剛剛推得的 Lemma 03,
其實我們已經發現 E(λ)跟σ^2,是成一個比例關係...
那麼,做個簡單的移項,我們就可以用
(n-1)k
S^2 = ---------* E(λ) 來估計σ^2
n(k-1)
(n-1)k 1
寫得更清楚一點 S^2 = -------- * --- Σ(Xi-Y)^2
n(k-1) k i=1~k
當n很大時,(n-1)和 n消去,得到定理中的結果。 QED
**
所以你會說:「啊...所以還是要做個近似的(n趨近於無限大)」
別忘了我們是做統計,n趨近無限大,是一個很合理的假設
在這個假設下,由以上的推導,我們知道S^2還是要除以「k-1」
才能最沒有偏差的估計σ^2。
(當然,我們也可以有其他的方式估計σ^2,
如果我們覺得偏差可以接受,但是我們要有最大的可能性去估計σ^2
那麼就要除以k,這是用 most likelihood estimate等方法的估計
在這裡就不多提了。)
**
在高中或大學,常常聽到一個「除以k-1的理由」
是因為樣本的標準差,只有 k-1個自由度,
最後我們補充一個定理,說明自由度的問題
證明就省略,有興趣的人可以參考數理統計的書。
=============================================================
Thoerem 02:以簡單隨機取樣的隨機變數 X1,X2,...Xk
定義兩個統計量 Y 和 S^2 (都是隨機變數):
Y = (X1+X2+...+Xk)/k
1
S^2 = ----- Σ(Xi-Y)^2
k-1 i=1~k
則 Y 和 S^2 為互相獨立的隨機變數。
=============================================================
--
這是你嗎 你要這樣的過嗎
這是你嗎 你錯過了自己吧
就這樣嗎 把你自己信仰 來換別人所謂的天堂
這是你嗎 是誰給了你框框
這是你嗎 把你自己都遺忘
你的心 畢竟是你自己的地方
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 140.109.32.9
※ 編輯: microball 來自: 140.109.32.9 (06/24 20:07)
推 sendohandy:看一半先推221.169.163.121 06/24
推 jencheng:本期(113期) '數學傳播' 有這方面的討論 218.166.68.66 06/24
推 gary27:收到精華統計區140.134.242.144 06/24