→ andrew43:題外話,不要一次刪去或加入超過一個變數。 06/30 17:05
→ andrew43:你可以用 step() 自動化這個動作,但我還是習慣手動選擇 06/30 17:06
像是向後/前選取變數那樣一個變數一個變數刪嘛
→ andrew43:對啊。相關的function還有add1()和drop1() 06/30 18:05
我剛剛試著用step(model1,direction="backward")跑
結果他現在似乎跑不完了 囧
我自變數有139筆
樣本數是大約5000筆
我把他停掉之後他似乎一直跑出下面這行的warning
glm.fit: fitted probabilities numerically 0 or 1 occurred
但是我不太懂他的意思是什麼...
→ andrew43:我不知道,但先檢查出是哪一步出問題看看。 06/30 18:46
推 Wush978:看起來有linear separable的問題 06/30 18:54
線性可分是不是就代表著樣本(OR變數)之間有相依性存在呢
→ andrew43:不是,而是指自變數中有條線可以完美地區別依變數的值。 06/30 19:30
所以是指自變數中 某些自變數的線性組合就可以完美的區別依變數囉
聽起來好像不是什麼壞事(感覺我有點笨...)
※ 編輯: lovesnow1990 (140.119.74.75), 06/30/2014 21:01:12
推 Wush978:會導致模型收斂出問題 06/30 21:39
→ Wush978:logit會把0, 1, 變換到無限大 06/30 21:40
→ Wush978:所以你fit出來的模型參數會很怪 06/30 21:41
→ andrew43:沒錯。也謝謝樓上補充。 06/30 21:50
http://pages.cs.wisc.edu/~jerryzhu/cs769/lr.pdf
我上網查了一下線性可分的解決方法
因為我意思看不太懂所以先直接把英文截下來
One way to avoid this is to incorporate a prior on θ in the form of a
zero-mean Gaussian with covariance (1/2λ)I.
and seek the MAP estimate
下面是我的解讀不知道正不正確
=================================================
我必須先設立θ是一個服從N(0,(1/2λ)I)的變數
然後計算MAP estimate(他所指的是方程式(9)嘛?)
最後在用Newton-Raphson迭代法求得最佳解
=================================================
※ 編輯: lovesnow1990 (140.119.74.75), 07/01/2014 19:04:48
推 Wush978:Keyword: regularization 07/01 22:14
→ Wush978:可以看一下LiblineaR這個套件 07/01 22:15
→ lovesnow1990:好喔 非常感謝 07/02 15:19