看板 Statistics 關於我們 聯絡資訊
對資料數據做線性回歸是很常見的應用: y = a+b*x 有一組數據 (x,y) 之後,假設這數據成上述的線性關係, 我們可以計算其決定係數 R^2 而得到某個數值。那麼怎樣 的數值才能合理判斷數據可以用線性關係描述? R^2 = 1 當然沒問題,R^2 = 0 當然不行,R^2 = ? 才合理? 還是說我們一定得測多組 (x,y) 數據,然後根據這多組數 據去估算 b 的 p-值(例如小於 0.05啥的),也就是對 b 以 b = 0 做假設檢定,或者看 b 的信心區間才能判斷? 另外,第二種方法要取得多組數據而比較昂貴,而第一種方法 只要取一組數據就好,可以用第一種方法的 R^2 稍微猜一下值 不值得用第二種方法做更正式的統計假設檢定嗎? -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 220.136.62.4 ※ 文章網址: https://www.ptt.cc/bbs/Statistics/M.1525453373.A.C59.html
LiamIssac: 只有一組(x,y)怎麼回歸? 05/05 05:39
yhliu: 要考慮一堆雙變量數據是否能用直線迴歸描述, 只看 R^2 是不 05/05 07:05
yhliu: 名夠的, 看 b 的顯著性更不行. 至少應看看它們的相關散佈圖 05/05 07:07
yhliu: 看資料點是否大致呈直線關係. 05/05 07:08
肉眼視圖對於辨識大的差異挺好用,比方看數據點及是否有明顯的非線性波動。 但是如果沒有明顯非線性波動,而是兩坨稍微拉長的數據雲,這時候無法用肉眼 區分哪一坨雲比較像線性。 用前述的 R^2 和回歸直線斜率的信心區間可以有量化的估計,但這也只能從數據 看出這兩坨的相對差異,但是這差異的大小有否意義是個問題,這兩坨數據究竟 夠不夠像線性模型又是另個問題。如先前問的,怎樣的閾值適合用判斷是否為線性 模型, R^2 = 0.9, 0.8, 0.7, ...? ※ 編輯: saltlake (114.44.247.134), 05/08/2018 05:54:45