精華區beta Math 關於我們 聯絡資訊
以下 是以前寫的文章 有錯請指正^^b 多謝 作者 microball (研究院路的紫薇花) 標題 [統計] 標準差的無偏估值(unbias estimate) 時間 Sat Nov 6 01:01:45 2004 ─────────────────────────────────────── 一. 基本觀念 統計學的重要功用之一,就是從局部推測全體的性質 局部的資料,我們稱為 "樣本(sample)" 全體的資料,我們稱為 "族群(population)" 通常全體的資料是無法取得的, 我們希望從一小部份的樣品,推測全體的性質,是需要理論基礎的。 我們把樣品的值,稱做 「估計量(estimate)」 也就是用來估計「全體性質」的量。 在我們進入理論推導前,還要說明「取樣」的方式 最常見的就是「隨機取樣」(simple random sampling, s.r.s) 簡單的說,就是母群體中每個資料點被取到機率相同。 最後說明一下notation: μ:母體平均 σ:母體標準差 X:樣本平均 λ:樣本的標準差 S^2:母體標準差的unbias estimate P(X=k) 隨機變數X 等於k的機率 E(X): 隨機變數X 的期望值 Var(X):隨機變數X 的變方 = E(X^2) - [E(X)]^2 * 我們先做個簡單的例子,說明如何估計母體的平均值μ 假設群體可能很多資料點,稱做p1, p2,...pn (n通常很大) 這些資料點的值可以相同或不同, 取樣的結果,呈現某個機率分布。 我們現在從n個資料中,取出 k 個來作為樣品 (k遠小於n) 每個取樣的值都是隨機變數,稱做 X1,X2,...Xk [Lemma 01] E(Xi)=μ, V(Xi)=σ^2 pf : (我們證離散的情形,連續的情形其證明差不多) 假設母體中,有些資料點p的值可能是相同的, 我們把不同的值,稱做 u1,u2,...um (m<=n 因為有些值可能是相同的) 等於 ui 的資料點有 vi個, (vi總合為n) P(Xi = uj) = vj/n 因為機率均等。 因此,E(Xi) = Σ uj* P(Xi=uj) = (1/n)* Σ uj*vj = (1/n)* nμ = μ j=1~m j=1~m (上式最後一個Σ,會等於母群體所有的值相加,也就是nμ) 使用剛剛推導的結果, Var(Xi) = E(Xi^2) - [E(Xi)]^2 = (1/n)* Σ uj*(vj)^2 - μ^2 j=1~m = (1/n)* Σ(pj)^2 - μ^2 (注意:把uj,vj用pj代替) j=1~n = σ^2 (上式就是σ^2的一種定義) QED 我們證明了,對於隨機取樣的「一個」隨機變數 Xi, 它的平均跟標準差,都跟母體相同 但是我們不可能只取一次 (所謂的平均、標準差,都是多次取樣的結果) 這裡要說清楚一點:隨機取樣的 Xi,是個隨機變數 它一旦取樣,確定了它的值後,就不是隨機變數了。 雖然今天知道 Xi平均、標準差的理論值, 但我們不能藉由把它「取出來」後的值,去「得知」μ和σ 因為我們確定這個值的同時,它也不再是隨機變數了。 * 那要怎麼估計μ和σ呢? 當然就要靠多次的取樣。 我們先講估計μ的方法。 ======================================================================= [Lemma 02] 我們取了k個樣本,令 Y = (X1+...+Xk)/k 是個隨機變數。 則 E(Y) =μ 。 n-k 若每個取樣視為不相等的,Var(Y) = (σ^2) * ------------ n*(n-1) 若每個取樣視為相等的, Var(Y) = (σ^2) /n ======================================================================== 你會問說,為什麼取樣有沒有視為相等,會造成不同的結果...? 是這樣的:當我們取樣,但不放回去時,每個取樣不能視為相等的。 如果是取樣,然後放回,再取下一次樣,每個取樣就是相等的了。 如果n很大的時候,放不放回都差不多, 所以可以把取樣都視為相等的。 pf: (同樣,我們證離散的情形) E(Y) = (1/k)* Σ E(Xi) = (1/k)* kμ = μ i=1~k (第一個等號,請查看期望值的定義,是滿足分配率,可以拆開的) 若每個取樣視為不相等的,Var(Y) = (1/k^2)* ΣΣ Cov(Xi,Xj) i=1~k, j=1~k Cov(Xi,Xj) = E(XiXj)- E(Xi)*E(Xj),是變方Var 在多個隨機變數時的推廣。 因為我們假設不同的Xi,不是相等的,所以要用Cov 當Xi,Xj是同一個隨機變數時,Cov(Xi,Xj) = Var(Xi)。 * 我們一步一步來算 Cov(Xi,Xj):考慮跟 Lemma 01 中一樣的母群體 先算 E(XiXj) = ΣΣ ui*vj* P(Xi=ui且 Xj=uj) i=1~m, j=1~m = Σ ui*P(Xi=ui) Σ vj* P(Xj=uj│Xi=ui) 由貝式定律 i=1~m j=1~m P(Xj=uj│Xi=ui) = vj /n-1 ,若i≠j (n-1是因為先取了Xi = (vj-1)/n-1 ,若i=j 取Xj時,母群體少了一個) 接下來是代數運算對決! ΣΣ ui*vj* P(Xi=ui且 Xj=uj) i=1~m, j=1~m vj ui 注意:後面的Σ加總後, = Σui*(vi/n) { Σ uj*----- - ----- } ꄠ 還有留下含i的項,      i=1~m j=1~m n-1 n-1 給前面的Σ加總。 這裡把i=j時, uj*{(vj-1)/n-1} 寫成 ujvj/(n-1) - uj/(n-1) 接著把後面這項的 uj 巧妙地改成 ui 前面這項 ujvj/(n-1) 是不管i有沒有等於j,都有的 後面減掉的 uj/(n-1) 只有當i=j時才要減去。 我們放了ui在這裡,只有當i=j時,這個對j的Σ,才會把ui算進去。 = Σui*(vi/n) * (nμ -ui)/n-1 i=1~m 1 1 = ------- * { Σ ui*vi*(nμ -ui) } = -------{(nμ)^2 - Σvi*(ui)^2 } n(n-1) i=1~m n(n-1) i=1~m (nμ)^2 1 = ------- - -------{(μ^2) + (σ^2)} 這個等式用了 E(X^2) =σ^2-μ^2 n(n-1) n(n-1) σ^2 = μ^2 - ------ n-1 我們剛剛算的是 E(XiXj),又E(Xi) = E(Xj) = μ 所以 Cov(Xi,Xj) = (-σ^2)/ n-1 * 辛辛苦苦算了Cov(Xi,Xj),要把它加總才得到 Var(Y): Var(Y) = (1/k^2)* ΣΣ Cov(Xi,Xj) i=1~k, j=1~k = (1/k^2)* Σ Var(Xi) + (1/k^2)* Σ Σ Cov(Xi,Xj) i=1~k i=1~k, j≠i (這裡單純是用Cov的性質,當 i=j時,Cov = Var) = (k*σ^2)/ k^2 + {(-σ^2)/ n-1} /k^2 n-k = (σ^2)* ------- QED n(n-1) 當每個取樣視為相等時,我們只要去掉Cov項就是結果了。 我們先summery上一篇的結果:由Lemma 02, 設母體有p1,p2,...pn個資料點,平均為μ,標準差為σ。 我們用隨機取樣取了k個樣,分別用隨機變數 X1,X2,...Xk代表 現在令隨機變數 Y =(X1+X2+...+Xk)/k 則 E(Y)=μ Var(Y)= (σ^2)*(n-k) / n(n-1) * 我們的目標,是求母體標準差的估計值 而且是要「沒有偏差」的估計值(unbias estimate) 那麼,跟我們該如何使用上面做的取樣,來推得σ呢? 一個直觀的想法是: 既然對於隨機變數而言,樣品的平均 = 母體的平均 那麼樣品的標準差(也是隨機變數),會不會等於母體的標準差呢? 答案是:不會。動點腦筋就會發現: 一般而言,取樣越多,總體偏離中心的值就越大,樣品的標準差也越大 極端的case是,當取樣數=1 的時候,樣品標準差 = 0 那麼要怎麼從樣品的標準差,推得母體的標準差呢? 我們先令樣品標準差為λ,定義如下: λ = (1/k)* Σ(Xi-Y)^2 注意:這個公式很像是一般我們在算母體標準差 i=1~k 但是這裡的Xi和Y,都是隨機變數,不是定值。 因此,λ也是隨機變數。 =================================================================== (k-1)*n Lemma 03 : E(λ) = (σ^2) --------- k*(n-1) =================================================================== E(λ)可以想像成是:我現在做了很多次的取樣,每次都隨機取了 k個, 那麼每次取樣 X1,X2...Xk 去算出的λ,都會不一樣, 但是λ的期望值,會如 Lemma 03 所述。 pf: 先把λ寫成 [(1/n)* Σ(Xi)^2] - Y^2 (這是標準差的另一種形式) i=1~k E(λ) = [(1/n)* Σ E(Xi^2)] - E(Y^2) i=1~k 先算 E(Xi^2) = Var(Xi) + [E(Xi)]^2 (這個公式我們多次使用) = σ^2 + μ^2 (由Lemma 01 !) 再算 E(Y^2) = Var(Y) + [E(Y)]^2 (σ^2)*(n-k) = -------------- + μ^2 (由Lemma02 !) n(n-1) 最後把 E(Xi^2)和 E(Y^2) 代入E(λ),就得到 Lemma03 的結果。 QED ======================================================================== Theorem 01:母體標準差的無偏估值, 以簡單隨機取樣的隨機變數 X1,X2,...Xk表示如下 1 S^2 = ----- Σ(Xi-Y)^2 k-1 i=1~k ======================================================================== pf: 由剛剛推得的 Lemma 03, 其實我們已經發現 E(λ)跟σ^2,是成一個比例關係... 那麼,做個簡單的移項,我們就可以用 (n-1)k S^2 = ---------* E(λ) 來估計σ^2 n(k-1) (n-1)k 1 寫得更清楚一點 S^2 = -------- * --- Σ(Xi-Y)^2 n(k-1) k i=1~k 當n很大時,(n-1)和 n消去,得到定理中的結果。 QED ** 所以你會說:「啊...所以還是要做個近似的(n趨近於無限大)」 別忘了我們是做統計,n趨近無限大,是一個很合理的假設 在這個假設下,由以上的推導,我們知道S^2還是要除以「k-1」 才能最沒有偏差的估計σ^2。 (當然,我們也可以有其他的方式估計σ^2, 如果我們覺得偏差可以接受,但是我們要有最大的可能性去估計σ^2 那麼就要除以k,這是用 most likelihood estimate等方法的估計 在這裡就不多提了。) ** 在高中或大學,常常聽到一個「除以k-1的理由」 是因為樣本的標準差,只有 k-1個自由度, 最後我們補充一個定理,說明自由度的問題 證明就省略,有興趣的人可以參考數理統計的書。 ============================================================= Thoerem 02:以簡單隨機取樣的隨機變數 X1,X2,...Xk 定義兩個統計量 Y 和 S^2 (都是隨機變數): Y = (X1+X2+...+Xk)/k 1 S^2 = ----- Σ(Xi-Y)^2 k-1 i=1~k 則 Y 和 S^2 為互相獨立的隨機變數。 ============================================================= -- 這是你嗎 你要這樣的過嗎 這是你嗎 你錯過了自己吧 就這樣嗎 把你自己信仰 來換別人所謂的天堂 這是你嗎 是誰給了你框框 這是你嗎 把你自己都遺忘 你的心 畢竟是你自己的地方 -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 140.109.32.9 ※ 編輯: microball 來自: 140.109.32.9 (06/24 20:07)
sendohandy:看一半先推221.169.163.121 06/24
jencheng:本期(113期) '數學傳播' 有這方面的討論 218.166.68.66 06/24
gary27:收到精華統計區140.134.242.144 06/24