看板 Statistics 關於我們 聯絡資訊
請教一下 假設我有組 data set {(x_i,y_i,i=1,2,...,20} 其中 y~bernoulli (p_i), logit(p_i)=b_0 + b_1 x_i, where x_i~N(0,1) 我 fit 一個 glm, logistic regression 得到 b_0 和 b_1 的估計值和 standard errors. 接著 我做 500 次 boot strap, 每一個 simulation 我都 fit 一次 glm, 得到 b_0 and b_1 的估計值,我用這組 boot strap standard errors (i.e., sample standard errors) 來跟上面比較,發現差很多... 我不知道是為什麼. glm 裡預設求standard error的方法是用 MLE and fisher information 如果它估計 standard errors 的方法是好的 為什麼 boot strap 結果差蠻多的 b_0 b_1 Default SE 0.61499 1.10264 Bootstrap SE 33.17491 148.1905 -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 128.189.206.177 ※ 編輯: b218h 來自: 128.189.206.177 (11/21 04:50)
ljta:你算的是"估計值的bootstrap std" 還是 "抽樣誤差" ? 11/21 08:03
b218h:sd(b*_1,b*_2,...,b*_B) 11/21 13:56
pran:一樓是統計達人,資料分析高手 11/21 18:06
yhliu:軟體給你的是大樣本理論下的估計 s.e.(b_i), 並非 exact s.e 11/21 22:00
yhliu:另一方面, bootstrap 估計 se(b_i) 用 500次是不是夠多, 換 11/21 22:02
yhliu:言之, se(b_i) by bootstrap 本身的誤差也要考慮. 11/21 22:02
yhliu:又, 如果你所列數據是軟體結果與 bootstrap 結果比較, 那差 11/21 22:04
yhliu:距確實太離譜, 檢查一下 bootstrap 有沒有做錯吧! 11/21 22:05
yhliu:如果軟體沒算錯(是否收斂? 500次 bootstrap樣本結果呢?) 11/21 22:07
yhliu:那麼 n=20 太小, 結果不可信, 就是唯一能說的了! 11/21 22:08
b218h:我知道哪裡有問題了 11/22 09:02
b218h:原因出在boot strap sample 裡有些是 "almost separable" 11/22 09:02
b218h:少數是"all 0's or all 1's" 11/22 09:02
b218h:我把那些丟掉後兩個就差不多了:) 11/22 09:03
b218h:謝謝 yhliu 11/22 09:05
yhliu:其實, 會產生 almost separable 與 all 0's, all 1's 等情形 11/22 09:30
yhliu:就是 n=20 太小的證據. 單純地把它們拿掉, 並不算正確. 11/22 09:32
clickhere:20太小了. GLM給得s.e.也未必可信. 11/22 15:43
clickhere:是bootstrap, 不是boot strap. 11/22 15:43
sneak: 軟體給你的是大樣本理論 http://yofuk.com 01/02 15:00