看板 Statistics 關於我們 聯絡資訊
http://tw.club.yahoo.com/clubs/education-psy/ 重要觀念---中央極限定理 (CLT) 輔導老師李上 中央極限定理為推論統計中最重要的定理之一,推論統計想要 學的好,此CLT的觀念勢必要有完整的了解。 [老怪物批] 說得是沒錯; 問題是連作者本身都沒弄清楚! CLT為由母群一次抽取N個樣本將形成一個樣本平均數,如此不 斷地抽取將形成一樣本平均數的次數分配,此分配 [老怪物批] 不能說 "錯", 但實在有點語焉不詳! 1. 平均數等於母群平均數 2. 變異數為母群變異數除以N 3. 當N>30時無論母群為何分配,皆為常態分配 [老怪物批] 前兩項是樣本平均數基本結果, 與 CLT 無關! 而且既是有限次抽樣的 "次數分布", 只是抽 樣分布之近似, 其平均數/標準差, 也只能近 似理論值! 至於第3項結論, 完全是觀念不清楚又未做實 證的猜測! 看兩個例子吧! | OOOO Pareto(1,3) 群體 .10+ OOOO n=100 時樣本平均數之分布 | OOOOOOOO | OOOOO@@@@@* | OOOO@OOOOO * .08+ OOO@OOOOOO * | OO@OOOOOOOOO * | O@OOOOOOOOOO * | OO@OOOOOOOOOOOOO * .06+ OOOOOOOOOOOOOOOO | O@OOOOOOOOOOOOOOOO* | OO@OOOOOOOOOOOOOOOOO * | O@OOOOOOOOOOOOOOOOOO * .04+ @OOOOOOOOOOOOOOOOOOOOO * | *OOOOOOOOOOOOOOOOOOOOOO * | OOOOOOOOOOOOOOOOOOOOOOOOOO | *@OOOOOOOOOOOOOOOOOOOOOOOOOO@* .02+ * OOOOOOOOOOOOOOOOOOOOOOOOOOOO * | *OOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOO* | ** OOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOO@* | **** OOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOO@@@@OOOOO .00+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+- 1.26 1.36 1.46 1.56 1.66 1.76 對數常態群體, 參數 (0,1), | n=100 .12+ | OOO@@@* | OO@OOOO@ | O@OOOOOO* | OO@OOOOOOOO@ .08+ O@OOOOOOOOOO* | OO@OOOOOOOOOOO * | O@OOOOOOOOOOOOOO* | @OOOOOOOOOOOOOOO * | O@OOOOOOOOOOOOOOOOOO* .04+ @OOOOOOOOOOOOOOOOOOO * | *OOOOOOOOOOOOOOOOOOOOOO* | @OOOOOOOOOOOOOOOOOOOOOOOO@ | **OOOOOOOOOOOOOOOOOOOOOOOOOO@@ | ****OOOOOOOOOOOOOOOOOOOOOOOOOOOOOO@@@@OO .00+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+- .96 1.26 1.56 1.86 2.16 2.46 [老怪物白] 閉著眼睛你不妨忽視右偏的事實,而說它們都 接近常態! 這還是 n=100, 遠大於 "30"! ˇ 定理一的重要性為可以由樣本去對母群的平均數做點估計, 樣本平均數為母群平均數最好的不偏估計值。 [老怪物批] 不偏是不偏, 那 "最好" 的根據何在? ˇ 定理二的重要性為可以決定母群的區間估計。當N愈大時估計 母群平均數的區間會愈來愈小即母群平均數可以被愈精準的 估計,此定理又再一次地表現出推論母群中最重要的參數為 樣本數,當樣本數愈多的情況下對母群有最多的了解! [老怪物批] .... ˇ 定理三的重要性為常態分配!因為無論母群分配長什麼樣子, 只要N大於三十以上大家都會形成常態分配,所以可以站在同 一個基準點去互相比較。 [老怪物批] 胡說八道! ˇ 舉例如下,假如有個箱子裡面有一百顆球每顆球上都有編號 1~100,注意!此為一矩形分配的母群(因為每一顆球被抽出 的機率相等),平均數為50,當我一次抽取一顆球時會形成怎 樣的分配(N=1)?一次抽取兩顆球平均(N=2)之後再抽取,這 樣許許多多的平均數又會形成怎樣的分配?若一次抽取5顆 (N=5)呢?同理若一次抽取30顆,甚至100顆呢?在各種不同 的樣本數下,他們的平均數(定理一)、變異數(定理二)還有 分配形態(定理三)會有什麼樣的不同呢?這個題目如果可以 弄清楚的話,相信中央極限定理您一定會有很好的了解! [老怪物批] discrete uniform distribution ≠ rectangular distribution! 後者是連續型均勻分布的別名, 是因其 p.d.f. 而名的。 更重要的, 從有限群體以不放還法抽樣,連樣 本平均數的標準差都不再是 σ/√n, 更甭說 其 likelihood 很多人寫不出來! 再者, 要談中央極限定理,一無數理推證二無 模擬結果, 所謂 "弄清楚", 不外強記硬背吧? 由CLT可由樣本去估計母群的平均數的信賴區間、假設考驗(母群 參數已知為z檢定、若未知則為單一樣本t檢定)、可由CLT推導出 兩母群間平均數的差異情形(獨立t或相依t )、可由CLT推導出組 間變異與組內變異的差異情形藉此去比較三母群平均數以上的差 異(F檢定)。當抽樣分配為z分數時,還可以去推導出卡方分配, = 。 [老怪物批] 亂七八糟! t 檢定怎麼來的, CLT在談甚麼都 搞不清楚! 既云根據 CLT 做近似, 既云推適, 又何來群體參數已知/未知之說? 其餘諸言, 不足論也! β、power、p-value也是由CLT下的樣本平均數的次數分配所求 出。這點也就是為什麼樣本數愈大的情況下,前三者會有所變化, 因為N愈大樣本平均數的次數分配的變異數就會愈小,愈小的情 形下就容易顯著power較大、 β變小、p-value變小。 [老怪物批] 難道沒有 CLT, 就沒有 "樣本數愈大, power 愈高" 之類結果? 再者, 甚麼是 p-value, 把書好好地讀一讀吧! -- 夫兵者不祥之器物或惡之故有道者不處君子居則貴左用兵則貴右兵者不祥之器非君子 之器不得已而用之恬淡為上勝而不美而美之者是樂殺人夫樂殺人者則不可得志於天下 矣吉事尚左凶事尚右偏將軍居左上將軍居右言以喪禮處之殺人之眾以哀悲泣之戰勝以 喪禮處之道常無名樸雖小天下莫能臣侯王若能守之萬物將自賓天地相合以降甘露民莫 之令而自均始制有名名亦既有夫亦將知止知止可以不殆譬道之在天 163.15.188.87