作者Tarantino (Bad Motherfucker)
站內Statistics
標題[問題] 線性迴歸的斜率準確度
時間Tue Oct 28 19:02:20 2014
看到一個方法 想請教大家意見
一般來說
運用兩組對應的30筆的資料來計算迴歸
可得到他的迴歸線的斜率
而這斜率的95%信賴區間是此斜率加減約兩倍的標準誤
代表95%的信心水準下 真實斜率會落在此區間內
但若是從30筆中任意取兩筆出來 將這兩筆的X變數相減 y變數也相減
就可以得到相對應的dx和dy
這樣可以把樣本從30個 增加到30*29/2=435筆 (30筆中任取兩筆 共有435種組合)
以這435個資料點所計算出來的P-value會減少很多
斜率的標準誤也會減少 所以95%的信賴區間也會縮小
因此可以說算出的斜率結果更為顯著
但是總覺得怪怪的 為什麼只靠這樣相減就可以增加樣本數
這方法有甚麼問題嗎?
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 220.132.39.106
※ 文章網址: http://www.ptt.cc/bbs/Statistics/M.1414494143.A.245.html
→ yhliu: 群體是什麼? 30組數字? 10/28 23:02
→ yhliu: 30組數字的兩兩組合並不是相互獨立的, 你的 "標準誤" 並不 10/28 23:04
→ yhliu: 正確. 10/28 23:04
是30組(x,y)
請問標準誤不正確是指以此方法算出的標準誤不正確嗎? 還是指我的定義說錯了?
※ 編輯: Tarantino (1.34.39.236), 10/29/2014 20:50:40
→ yhliu: 30組 (x,y) 兩兩組合計算斜率, 再以其平均當迴歸線之斜率, 10/31 18:48
→ yhliu: 此平均斜率是否為群體模型之斜率的不偏估計有待探討; 而這 10/31 18:50
→ yhliu: C(30,2) = 435 個斜率彼此之間有相關, 因此, 並不能以這些 10/31 18:52
→ yhliu: 斜率的標準差除以 √435 當平均斜率之標準誤. 10/31 18:53