看板 R_Language 關於我們 聯絡資訊
小妹現在正在做data mining相關的project 但是遇到一個問題 我的data裡面有categorical 和numeric variable 如果是在迴歸裡 我知道要把分類變量轉換成factor 然後迴歸會幫我跑出dummy variables來解釋結果 但是如果是用lasso在variable selection這個步驟的時候 分類變量要怎麼去解讀呢? (因為可能變量選擇完後,部分dummy variable有係數部分沒有) 另外如果是要分析這樣的數據集, 是不是只有特定的variable selection方法才能做? 謝謝! -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 31.205.91.208 ※ 文章網址: https://www.ptt.cc/bbs/R_Language/M.1472206089.A.3D1.html
JX660: 以4類3欄設成dummy的變數為例 應該是視為一個變數來看 08/26 18:46
JX660: 所以只有三欄全拿掉或三欄全加入兩種 就算有一欄的係數是0 08/26 18:48
yun611: 那要怎麼決定全拿掉還是全留下呢? 08/26 18:57
yun611: 如果全留下的話,建立模型的時候要用原始變量 08/26 18:59
yun611: 還是dummy variable來做預測? 08/26 18:59
celestialgod: 用group lasso 08/26 20:03
yun611: 能不能把變量當成continuous做變量選擇後 08/26 22:12
yun611: 建立模型的時候再把分類變量設成factor 08/26 22:13