看板 Statistics 關於我們 聯絡資訊
小弟最近在回顧統計學信賴區間 進行了些許模擬驗證,腦筋卡住了有部份疑問想請益 假設 population~N(0, 1), 對 mu CI 作推論 A. Percentile Bootstrap method 1. 從 N(0,1) 生成母體樣本 X 2. 從 X 重覆抽樣生成 B 個複式樣本 BX 3. 計算多個 sample mean 4. 取 0.025, 0.975 百分位數作為 mu 的 CI 重覆 1~4 多次,Coverage Rate 大約為宣稱的 95% B. 此方法若如果從母體來進行 1. 從 N(0,1) 生成 B個 母體樣本 X 2. 計算多個 sample mean 3. 取 0.025, 0.975 百分位數作為 mu 的 CI 重覆 1~3 多次,Coverage Rate --> 100% B 方法的 Coverage Rate 從理論上也合理 在 iid 的前提下,每個 sample mean 正負機會各一半 若「多個」sample mean 取百分位數後,作出來的 CI 都>0 P(CI_{L}>0)=1-P(CI_{L}<=0) =1-P(至少有 0.025*B 個<=0) =1-pbinom(0.025*B,B,0.5) --> 1 疑惑的是 1. A、B方法最大的差異性在哪? 2. 若要透過 B 方法來建構 CI,它需要作什麼修改? 在無母數下 如果要對某個參數 theta 作 CI 且可以模擬多個 theta^{hat} 的觀察值 是否有 percentile 或是可能的 formula 可以得到 theta 的近似 CI? 可能是我弄錯了什麼才會在這漩渦裡頭繞,還望版上高手指點,感謝。 2018/04/02 =================================== 感謝 r 大的回應~ 小弟疑惑的地方在於 A 方法的模擬結果,以「樣本」重覆抽樣計算 sample mean Coverage rate 真的是 90~95% 左右 但 B 方法,以「母體」重覆抽樣計算 sample mean 同樣是以百分位數的方式作 CI 重覆多次作出來的 CI 範圍均值 會很接近 population mean 95% CI 的數學推論結果 但其 Coverage Rate,卻會接近 100%,而不是宣稱的 95% 上下 為什麼? bootstrap 精神在於對樣本重覆抽樣,可望重現母體的隨機分佈樣貌 那為何直接以母體重覆抽樣,卻會得到 100% coverage rate 的結果? 2018/04/03 =================================== 感謝 y 大的回應 我獲益良多,我想我要補足部份在於 A(B) 方法以百分位數的方式 1. 取出來的都是 sample mean distribution 的 "涵蓋區間" 2. 它在 population mean 的 "信賴區間" 上提供了什麼資訊 目前還缺少最重要 1-->2 的「數學推論」來說服自己 我會繼續找尋答案的,萬分感謝。 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.136.19.199 ※ 文章網址: https://www.ptt.cc/bbs/Statistics/M.1522600495.A.D17.html
recorriendo: A只有一組樣本 然後"把樣本當母體"去抽更多樣本 這是 04/02 06:01
recorriendo: bootstrap的基本精神 為什麼這樣做可以就要去看boots 04/02 06:02
recorriendo: trap理論的書 bootstrap一般用在現實世界中取得的資 04/02 06:03
recorriendo: 料 母體分布未知的情況 04/02 06:04
recorriendo: 最後的問題 不知道你所謂吳母樹在這裡什麼意思 不過 04/02 06:05
recorriendo: 反正基本精神就是可以生成一堆theta模擬值就可以用 04/02 06:06
recorriendo: percentile估計CI 至於生成方法bootstrap或其他都可 04/02 06:07
※ 編輯: hexjacal (140.113.132.180), 04/02/2018 09:39:39
yhliu: B 所得到的是 sample mean 抽樣分布的中間95%區間, 這當然 04/03 10:35
yhliu: 應包含群體的 mean, 除非只模擬很少次. 04/03 10:37
yhliu: A 是以原來一組樣本當群冊去抽樣, 所以最後得到的是這個被 04/03 10:39
yhliu: 當做群體之樣本的 bootstrap 樣本平均數分布的中間95%的區 04/03 10:41
yhliu: 間,它幾乎必然包含原樣本的平均數, 卻也不是原群體平均數的 04/03 10:43
yhliu: 信賴區間. 04/03 10:44
yhliu: Bootstrap 的基本原理是 bootstrap樣本推估原樣本, 而原樣 04/03 10:47
yhliu: 本"像" 群體, 所以推估這個樣本也就間接推估了群體. 04/03 10:49
yhliu: 所以a的區間雖不是真正原群體平均數的95%信賴區間, 但雖不 04/03 10:51
yhliu: 中, 不遠矣, 想一想由原樣本平均數建構群體平均數的方法就 04/03 10:54
yhliu: 知道了. 04/03 10:55
yhliu: 修正: A 泓所得區間當作原群體平均數之倌賴區間亦可. 04/03 11:00
※ 編輯: hexjacal (140.113.132.180), 04/03/2018 11:36:01
recorriendo: B求出來的就是point estimate的分佈而已 理當會照 04/05 06:45
recorriendo: 中央極限定理分布 夠多point est的話涵蓋母體值機率 04/05 06:48
recorriendo: 趨近於1 A每一個樣本導出來的區間不一定涵蓋母體值 04/05 06:49
recorriendo: 但假設有100組樣本 對每組"這樣做"以後有約95會涵蓋 04/05 06:51
recorriendo: 所以A才符合CI的定義 CI本就是針對"把每組樣本這樣 04/05 06:53
recorriendo: 做"以後會發生什麼事來定義的 注意你的B已經不是在單 04/05 06:54
recorriendo: 一樣本裏操作了 04/05 06:54