看板 Statistics 關於我們 聯絡資訊
各位高手您好 想請教一下,一些統計書上說在跑分析時, 所需要的樣本數通常為變項數量*10 那在做虛擬變項時,會把變項分成變成K-1個, 像性別可能沒問題,因為2-1個,還是一個變項 但像是年齡,可能會分成二個或三個變項, 那這時所需的樣本數是否也要增加? 統計基礎不強請包含。。。 感謝 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 140.112.89.166 ※ 文章網址: http://www.ptt.cc/bbs/Statistics/M.1420292271.A.096.html
goshfju: 你解釋變數太多 可能就對導致自由度不夠扣 01/03 23:54
ethan0970: 你增加的是變數不是觀測值 01/04 20:20
ethan0970: 切的越細只是橫的變量增加,與直向的觀測值無關 01/04 20:22
ethan0970: 還有切太多要考量過度擬合的問題 01/04 20:23
yhliu: 類別解釋變數分類多, 當然要相應地增加樣本數. 01/05 08:52
yhliu: 以迴歸模型 n = 變項數*10 的 rule of thumb 而言, 若解釋 01/05 08:53
yhliu: 變項是類別的, 那麼參考準則的 "變項數" 是指虛擬變項個數. 01/05 08:55
yhliu: 不過, 除了總樣本數之考慮外, 還有樣本數在分類變項各分類 01/05 08:56
yhliu: 之分配型態要考慮. 如果某一解釋變項之某一分類樣本數太少, 01/05 08:56
yhliu: 也會產生一些不好的結果. 01/05 08:57