看板 Statistics 關於我們 聯絡資訊
我覺得我的基本觀念不是很清楚(可我有翻了好幾遍講義還是無法融會貫通阿!!!><) 所以才寫不出這樣的題目,雖然殺雞焉用牛刀,但還是希望能得到版上大大的指點>< 【題目】 在修習統計學時,有一個理論一定是最早會被提到,這個理論影響了推論統計法的發展。 (1)請說明是哪個理論? 我猜是中央極限定理。 但剛開始我是想到描述統計,因為我記得描述統計是推論統計的基礎,推論統計是透過 整理過的樣本資料去推估母群資料。 但他說影響推論統計法發展又覺得應該是中央極限定理。 (2)說明此理論如何影響推論統計法的發展? 我想問t、卡方檢定的假設都是母群為常態對不對??(昨天有點被同學搞混了) 像t雖然n<30時抽樣分配長得不像常態, 但它的基本假定還是母群被假設為常態對嗎?? (中央極限定理1可以算是在講這句嗎??另卡方有用到中央極限定理嗎?) 如果是的話這題我可以朝這個方向寫嗎? >>如果沒有中央極限定理的假設, 那麼這些檢定就沒有一個可對照的比例分配(根據中央極限定理1), 也無法推估母群參數(根據中央極限定理2和3)。 ※下一題一直在考慮要不要放上來問,可是這題跟心理學有很大的關係嗎? (3)請以「心理學」的研究為例,來說明此理論在什麼情況下應該不可以被用? 我想說第一個步驟是不是要知道在統計上有哪些情況不能用這個理論, 第二步才是去想心理學有哪些不能用? 目前想到在統計上不能用的可能有母群本身不被假定為常態,或是個案研究(樣本=1)? (我同學有人說迴歸和無母數統計) ((小滴咕 每次來這個高手集散地問初統都好窘哦... 問述過程哪裡不好請各位大大鞭小力一點,我下次會改進 也希望有人可以理我一下 ((戳戳T_T -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 49.159.140.188 ※ 文章網址: http://www.ptt.cc/bbs/Statistics/M.1408659987.A.476.html
yhliu: (1) 我猜是中央極限定理沒錯. 08/23 01:45
yhliu: (2) 由於中央極限定理, 因此早期統計推論只考慮大樣本. 08/23 01:47
yhliu: 至 t 分布的提出, 統計推論才轉向小樣本理論. 此時的小樣本 08/23 01:48
yhliu: 推論是建立在 常態群體 的假設之下 --- 這就與中央極限定理 08/23 01:49
yhliu: 是兩回事了. 又, t 分布在 d.f. 大時接近常態分布, 與中央 08/23 01:50
yhliu: 極限定理不相干, 倒是與大數法則比較有關. 08/23 01:50
yhliu: 卡方檢定, 如果是指列聯表檢定、配適度檢定, 那確實是中央 08/23 01:51
yhliu: 極限定理的結果, 所以是 大樣本方法. 08/23 01:52
yhliu: (3) 如果 (1) 的答案是中央極限定理沒錯, 那麼, 不適用的 08/23 01:53
yhliu: 情況也就是不宜引用中央極限定理, 也就是樣本不夠大的情況. 08/23 01:54
b1c5h4s7: 感謝yhliu大大>< 08/23 21:50
kerwinhui: 也有可能(1)是大數法測 08/24 01:59
kerwinhui: (2)就可能是說用大數法則定義機率的死循環,直到上世紀 08/24 02:02
kerwinhui: 發展出 frequentist 和 Bayesian 兩種不同的統計學 08/24 02:04
kerwinhui: (3)除了yhliu上述的答案,還有就是樣本之間獨立的問題 08/24 02:13
yhliu: 我也思考過題意是否問大數法則. 不過, 細思覺得大數法則不 08/24 17:04
yhliu: 是用在 "推論". 大數法則講的是例如 樣本平均≒群體平均, 08/24 17:06
yhliu: 換言之, 就是 樣本≒群體, 根本無需 "推論" 了. 08/24 17:07
yhliu: 至於樣本中觀測值之間的相互獨立性, 這不只涉及中央極限定 08/24 17:08
yhliu: 理適用與否, 而是所有統計推論程序的適用性問題. 直言之, 08/24 17:09
yhliu: 觀測值間相互不獨立, 依其關聯結構, 需要特殊的統計程序. 08/24 17:11
kerwinhui: 看你怎樣定義"推論"。大數法則拿來堆論是 Bernoulli 08/24 22:25
kerwinhui: 1713 年開始,Laplace 的 direct probabilty 是 1774 08/24 22:26
kerwinhui: 高斯正態分佈的推論(finite variance)是 1809 年, 08/24 22:28
kerwinhui: 高斯拿小樣本是1823-28 年,所以除非你把之前一百多年 08/24 22:32
kerwinhui: 的統計學都不算(那貝葉斯就肯定不關推論統計什麼事了) 08/24 22:34
kerwinhui: 大數法則不需要樣本≒群體,在沒有Kolmogorov/Salvage/ 08/24 22:37
kerwinhui: ...的機率論之前就已經在用了 08/24 22:39
kerwinhui: 比如說 Bernoulli 自己就有推論 Bernoulli trial 的 p 08/24 22:43
kerwinhui: 會在 N 越大時越穩定,也給了一個 lower bound 08/24 22:45
kerwinhui: 感覺若然答案是CLT的話,則出題者必為 frequentist… 08/24 22:52
yhliu: 我說 "大數法則" 就是直接說 樣本≒群體, 我可沒說基於大樣 08/25 17:36
yhliu: 本的統計推論不算推論. 小樣本跟中央極限定理什麼關係? 小 08/25 17:37
yhliu: 樣本推論就是基於 "正確" 分布的扭推論, 就是不依賴中央極 08/25 17:38
yhliu: 限定理的推論. 08/25 17:38
yhliu: 當然要說基於大數法則 "樣本≒群體" 的統計分析是推論也無 08/25 17:39
yhliu: 不可, 畢竟還是從樣本猜群體. 只是這已經說 樣本≒群體 了, 08/25 17:40
yhliu: 還有什麼好討論的? 就像說用樣本平均數估計群體平均數, 基 08/25 17:41
yhliu: 於大數法則就是把樣本平均數算出, 而後說群體平均數大概就 08/25 17:42
yhliu: 是這個值. 而基於中央極限定理的推論, 不僅算出點估計值(樣 08/25 17:43
yhliu: 本平均數), 還算出樣本平均數之標準差或標準誤, 並可依此建 08/25 17:44
yhliu: 立信賴區間, 或做關於群體平均數之假說檢定. 所謂統計推論, 08/25 17:45
yhliu: 通常包括 點估計+抽樣誤差計算, 區間估計, 假說檢定, 預測. 08/25 17:46
yhliu: 只算出點估計值而不考慮其誤差, 這樣的推論太粗糙. 08/25 17:47
yhliu: 這還能扯到 frequentist 與 Bayesian 的問題? 08/25 17:48
kerwinhui: Bernoulli也有估計誤差啊,怎麼能說太粗糙?當然,他給 08/26 11:51
kerwinhui: 的誤差現在看來是很粗糙的。 08/26 11:52
kerwinhui: 我想我們的分歧是在於『推論統計』的定義上,若你把它 08/26 11:55
kerwinhui: 定義成 R.A.Fisher 的那一套上,當然可以說CLT是始祖 08/26 11:58
kerwinhui: 但若是定義廣泛一點,像 Cox 的 Principles of Stat. 08/26 11:59
kerwinhui: Inferences 的那樣,那麼weak LLN是第一步 08/26 12:05
kerwinhui: 因為它給了plug-in principle作為parameter estimation 08/26 12:07
kerwinhui: 然後才是『這個估算有多好?』的CLT,Edgeworth,... 08/26 12:08
kerwinhui: 能夠扯出 frequentist vs Bayesian 是因為 Bayesian 的 08/26 12:09
kerwinhui: 幾個中央極限定理在歷史上出現的時間都是頗後期的 08/26 12:10
kerwinhui: 而且Bayesian推論是根本可以不用asymptotics的 08/26 12:12
不好意思,我想打個岔問一個問題(兩位大大的討論有點深澳我看不太懂^^") 我想再問~只有母群體是常態或被假設為常態才能使用中央極限定理嗎?
kerwinhui: 不用,CLT只要有獨立+有限一、二次矩都可以用,也有 08/26 23:20
kerwinhui: 非同分佈的版本、非獨立但相距"不遠"也可以在2+delta次 08/26 23:24
kerwinhui: 矩有限時用 08/26 23:25
感謝kerwinhui大大的回答(不過我看不太懂有限一、二次矩之後那些東西..)
yhliu: 勸君多讀書 --- 請讀教本! 會誤以為群體是常態才適用中央極 08/28 09:29
yhliu: 限定理, 這基礎實在太薄弱! 若已知群體是常態, 幾乎已不需 08/28 09:30
yhliu: 要中央極限定理了. 基本的東西不了解, 來這裡問也沒用, 因 08/28 09:31
yhliu: 為你根本不可能判斷別人給的說法是對是錯, 屆時以訛為正, 08/28 09:32
yhliu: 考試失分還只是小事, 用於實務問題, 造成大災難也未可知. 08/28 09:33
大大您誤會了,我並不是貪圖方便而偷懶不去看書,就如原文所說,我已經看好幾遍了, (講義、課本、上網查)但還是不清楚,林清山對於CLT的定義是: 「若我們重複從母群抽取樣本大小為N的許多樣本,則所得到的這許多樣本平均數將成為 常態分配,這些樣本平均數將等於Mu,標準差等於標準誤」 這段解釋讓我認為是不是母群要是常態或被假定為常態,接下來才能用樣本=母群平 均數和變異誤這兩個東西。 然後多數在講CLT(指我手邊有的書和所查網路資料)都只有講樣本大於30可為常態、 樣本平均數=母群平均數、變異誤這三樣東西,並沒有詳加敘述其他部分 ※ 編輯: b1c5h4s7 (49.159.158.211), 08/28/2014 16:37:47
yhliu: 卻不知你如何看出群體要是常態? 09/01 11:51
yhliu: 我是建議你 "多看教本", 並沒說你不看書. 事實上你是不懂什 09/01 11:53
yhliu: 麼是中央極限定理, 所以從網路上看到的東西根本無法分辨何 09/01 11:54
yhliu: 者正確何者錯誤. 09/01 11:54
yhliu: 簡單隨機樣本的平均數幾乎不可能等於群體平均數, 是假設能 09/01 11:55
yhliu: 重複做抽樣, 那麼重複無窮多次結果得到的無窮多個大小為 n 09/01 11:56
yhliu: 的樣本平均數的平均數 (注意: 是許多樣本平均數的平均, 不 09/01 11:57
yhliu: 是一個樣本的平均值), 會等於群體平均數. 這與中央極限定理 09/01 11:58
yhliu: 無關! 中央極限定理說的是: 在簡單的條件下, 如果上述樣本 09/01 11:59
yhliu: 大小 n 夠大, 那麼這許多樣本平均數構成的分布, 會接近常態 09/01 12:00
yhliu: 分布. 再強調一次: E[Xbar] = μ, Var(Xbar) = σ^2/n 這與 09/01 12:00
yhliu: 中央極限定理無關, 那是簡單隨機樣本必有的結果. 09/01 12:01
yhliu: 至於中央極限定理所謂 "n 夠大", 並不是 "n 大於 30", 這是 09/01 12:02
yhliu: 不懂的人以訛傳訛的結果! 09/01 12:02
yhliu: "n 夠大" 的 n 要多少, 與群體分布的特性有關, 也與能容忍 09/01 12:03
yhliu: 的誤差有關. 因此, 我無法給你 n 要多大才算 "夠大" 的具體 09/01 12:04
yhliu: 數字. 以前我曾做過一些模擬, 可惜所放的 bbs 站已關了! 09/01 12:07
yhliu: 以 "n 大於 30" 或 "大於或等於30" 的由來, 應是來自一般統 09/01 12:08
yhliu: 計教本都有的 t 分布在自由度 30 以上時可用標準常態分布近 09/01 12:09
yhliu: 似. 很多人誤以為這就是中央極限定理, 大謬! t 分布在自由 09/01 12:10
yhliu: 度大時接近常態分布的根源是 "大數法則", 是 樣本標準差 09/01 12:11
yhliu: 近似群體標準差 的結果, 與中央極限定理是兩回事. 09/01 12:11
kerwinhui: 的確,Wilcox好像出過幾份paper說明這個n>30仍然是不夠 09/03 17:03
kerwinhui: 大,主要原因是不知道σ的情況下s^2會偏離χ^2分佈 09/03 17:05
kerwinhui: 忘了說,30這個神奇的數字其實是來自於Student(t分佈的 09/03 17:22
kerwinhui: 那個)曾經說過他自己的經驗是correlation correction 09/03 17:24
kerwinhui: factor在兩個獨立抽樣, n=30時大概沒影響了,之後就被 09/03 17:26
kerwinhui: 人誤用至今… 09/03 17:26