作者jikett (jikeZ)
看板DataScience
標題[問題] logistic regression vs SVM
時間Fri Mar 30 09:25:15 2018
各位大神前輩好,小弟不才,最近在面試遇到一個有趣的問題,
面試官問說data在什麼情況下會用logistic regression,什麼
情況下會用SVM?
當下有點愣住,若談boundary的特性,兩個都可以透過kernel
trick轉成nonlinear。印象中以前看蠻多例子都會用
K-fold cross validation做比較,好像沒有一個通則說什麼情
形下哪一個一定會優於另一個。
後來跟一個Phd朋友討論後,也只得到說logistic regression在
data seperable情況下,MLE會是無窮大,但在practical中並不
常見完全seperable的data?!
另外有想到說loss的差異,但其實hinge loss跟logistic regression
的loss(sigmoid+cross entropy)似乎也只有微小差異? 且loss的
不同似乎也不是面試官想問的data特性?
最後只想到multi-class,LR有softmax推廣到multi-class,但SVM
也可以做1-vs-all SVMs。不曉得各位大神前輩們對於這兩者的比較
適用於什麼樣的data有什麼看法? 先謝謝各位大神前輩!
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 71.56.79.88
※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1522373117.A.797.html
推 e196819: 我猜 1-vs-all 的 decision boundary 有陷阱? 03/30 09:41
→ EGsux: 這要回有點長xd decision boundry不一樣 interpretability 03/30 09:42
→ EGsux: 還有 big O complexity 都不同 03/30 09:42
→ EGsux: 就算是y=0,1 他們的特性都差很多 03/30 09:43
→ EGsux: svm prediction on unseen data 會比較準一點? 因為用 sup 03/30 09:44
→ EGsux: port vector的特性 特別是小的dataset? 03/30 09:44
→ EGsux: boundry 可不只有 linear non linear, SVM 的SV是指 suppor 03/30 09:46
→ EGsux: t vector 03/30 09:46
推 EGsux: 還有n>m用SVM也會比較好 03/30 09:50
推 NBAPredictor: 學術單位的面試? 03/30 10:23
推 lucien0410: 推! 03/30 10:25
→ lukelove: svm with radio basis, will transfrom data p -> n dim 03/31 00:58