作者yun611 (芸芸)
看板R_Language
標題[問題] Variable selection
時間Fri Aug 26 18:08:06 2016
小妹現在正在做data mining相關的project
但是遇到一個問題
我的data裡面有categorical 和numeric variable
如果是在迴歸裡
我知道要把分類變量轉換成factor
然後迴歸會幫我跑出dummy variables來解釋結果
但是如果是用lasso在variable selection這個步驟的時候
分類變量要怎麼去解讀呢?
(因為可能變量選擇完後,部分dummy variable有係數部分沒有)
另外如果是要分析這樣的數據集,
是不是只有特定的variable selection方法才能做?
謝謝!
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 31.205.91.208
※ 文章網址: https://www.ptt.cc/bbs/R_Language/M.1472206089.A.3D1.html
→ JX660: 以4類3欄設成dummy的變數為例 應該是視為一個變數來看 08/26 18:46
→ JX660: 所以只有三欄全拿掉或三欄全加入兩種 就算有一欄的係數是0 08/26 18:48
→ yun611: 那要怎麼決定全拿掉還是全留下呢? 08/26 18:57
→ yun611: 如果全留下的話,建立模型的時候要用原始變量 08/26 18:59
→ yun611: 還是dummy variable來做預測? 08/26 18:59
→ celestialgod: 用group lasso 08/26 20:03
→ yun611: 能不能把變量當成continuous做變量選擇後 08/26 22:12
→ yun611: 建立模型的時候再把分類變量設成factor 08/26 22:13