作者CharlieL (心平氣和)
看板DataScience
標題Re: [問題] linear regression 的feature選用問題
時間Wed Mar 28 09:48:23 2018
※ 引述《PyTorch (屁眼火炬)》之銘言:
: 如題
: 請教一下
: linear regression的model在feature選用上有可能
: 只用上feature的 x ** 2項 而不用x項效果會更好嗎?
: 因為我看宏毅老師的投影片好像都是
: 先用 x , 再加用x ** 2, 再加 x *** 3, ...
: 直到overfitting發生
: 那有可能是只用x ** 2, 而不用x 會效果更好嗎?
: 還是說overfitting只會發生在高次方項?
: 因為我想到若x存在負數,那只選用x**2當fearture而不用x也許會比較好?
: 先謝謝各位願意看完我冗長的問題
比較簡單的答案:
有沒有可能比較好,有可能。舉例來說,如果今天是單變數的模型,
而你想要近似的函數具有「偶函數」的性質,那麼 x**2 的轉換也許會
更貼切地運用這個性質,達到更好的表現。
但實務上,有沒有人這麼做?我沒看到過。也許是因為有很多的做法
(例如把一次轉換、二次轉換都包含但最後使用 L1-regularization 一類的
稀疏模型)也可以達成類似的效果,也許是因為這個「有可能」的情形並
不那麼多,也許只是因為這樣的做法並不符合大部份人的「直覺」。所以
我還真的沒看過人這樣做的……
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 61.216.8.103
※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1522201705.A.7B5.html
推 PyTorch: 感謝田神,小的也是coursera田神的粉絲,榮幸得田神回文 03/28 10:28
→ PyTorch: 理清我長久的疑惑 03/28 10:30
→ hsnuyi: 這是domain knowledge的問題 而且還取決於領域 做廣告投放 03/28 13:40
→ hsnuyi: 賺錢應該確實是不會這樣做吧 03/28 13:40
推 Rprogramming: 朝聖田神 03/28 13:59
推 dyadi: 朝聖 03/28 15:24
→ celestialgod: 取log呢,雖然負的需要額外處理,但是感覺這樣expon 03/28 17:58
→ celestialgod: ent的問題可以解決 03/28 17:58
推 st1009: 朝聖 03/28 20:08
推 goldflower: 取log basis function的次方不就沒意義惹 03/28 21:37
→ tritonight: 推 03/28 21:58
推 Radler: 推 03/28 22:12
推 sunhextfn: 推 03/29 08:32
推 shaform: <(_ _)>!! 03/29 08:38
推 hank292: 朝聖 03/30 01:59