看板 R_Language 關於我們 聯絡資訊
之前在做project的時候 沒有多想就沒有把分類變量設成factor 所以在做變量選擇和建立模型的時候 都是把分類變量默認成continuous 像是Race分成5種(1.2.3.4.5用這五個數字代替) 但是因為現在所剩時間不多... 所以可能沒辦法再從頭改整個data mining過程 如果直接默認成continuous做出來的結果是可以的嗎? 會不會有很大的問題出現... 查了一些國內國外資訊 沒有特別講到這塊 然後好像也有人是直接就默認成continuous 想問版上各位強者有什麼想法? 謝謝! -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 130.88.240.81 ※ 文章網址: https://www.ptt.cc/bbs/R_Language/M.1472228289.A.B8A.html ※ 編輯: yun611 (31.205.91.208), 08/27/2016 01:18:59 ※ 編輯: yun611 (31.205.91.208), 08/27/2016 01:19:30
andrew43: 非常不恰當,建議還是轉factor。 08/27 18:20
yun611: 請問一下轉factor之後,有哪些方法可以用來 08/27 18:46
yun611: variable selection的嗎?大多數找到都是continuous情況的 08/27 18:47
yun611: 有查過group lasso但是一直做不出來..... 08/27 18:47
yun611: 或是說在有dummy的情況下,有沒有什麼選擇變量的原則? 08/27 19:15
andrew43: 我不熟lasso,但建議你先給一段具體的程式碼請再大家修 08/27 20:34
andrew43: 至少要知道你用什麼function之類的,不然難回應。 08/27 20:34
Wush978: continuous的變數在處理時常常假設 1與2的差距和2與3相同 08/30 00:45
Wush978: 所以以race為例,如果你設定為continuous很容易處理時出 08/30 00:45
Wush978: 問題 08/30 00:45
Wush978: factor的缺點在資料量不夠時,會有模型不穩定的問題 08/30 00:46
Wush978: 但是通常作法是小類合併成大類,而非轉成continuous 08/30 00:46
Wush978: 你必須要確保我剛剛講的假設是正確的,才用continuous處 08/30 00:46
Wush978: 理會比較好 08/30 00:46