[請益] R語言找哪些變數有顯著關係

作者qazsd (珍惜當下)

看板Soft_Job

標題[請益] R語言找哪些變數有顯著關係

時間Wed Jun 21 11:53:47 2017

想請教軟體板上的眾多高手們，小弟現有員工資料表一份，欄位有年資(StayYears) 及是否在職中(Status,A代表任職中，T代表已離職) 及所在國家(Country)等欄位。想找出員工大多待多久就離職？例如年資為3.5到4.0之間的離職率最高(T的數目最多)，或是哪個國家的離職率最高？想請問如果用R程式來寫該怎麼著手比較好？謝謝～資料表格式如下： ID Name StayYears Status Country 1 John 3.5 T USA 2 Mary 2.1 A USA 3 Ben 1.7 T French 4 Kevin 3.2 T India 5 Cindy 2.6 A French 6 Jack 3.9 A USA 7 Peter 1.3 A India 8 Andy 2.7 T French 9 David 0.8 A India 10 Nick 1.1 A USA -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 59.124.165.66 ※ 文章網址: https://www.ptt.cc/bbs/Soft_Job/M.1498017231.A.72D.html

→ mike7689: excel就可以做了吧？區間分析然後畫直方圖 06/21 12:07

→ qazsd: 有沒有用R語言的方式 06/21 12:13

→ rodion: 怎不PO到R版問問? 06/21 12:23

→ rodion: 版名 R_Language 06/21 12:24

推 f496328mm: 已幫轉 R 版 06/21 12:40

推 drajan: Random forest 的varimp可以找出重要變數 06/21 15:32

推 eddy50811: 這是統計問題不是程式問題- - 06/21 15:58

推 Sixigma: 這個就是看各國離職比例吧，用幾個簡單的原生function 06/22 13:15

→ Sixigma: 就可以做了，D-tree或RF的確也可以拿重要變數出來 06/22 13:16

→ Sixigma: 就把status當作y，做二元分類，但有可能重要變數不是國家 06/22 13:17

→ Sixigma: 而且你這個feature的量太少了，做變數挑選沒什麼意思 06/22 13:17

推 Sixigma: 如果資料就長這樣，其實你變數也就年資跟國家 06/22 13:20

噓 starcraftiii: 大學程度的東西,拿來這裡問,還蠻屌的 06/22 21:21

→ cmcotton: 羅吉斯迴歸 06/22 22:10

推 pig0038: 作Principle Component Analysis, 然後畫score plot, lo 06/23 22:21

→ pig0038: ading plot 或者先用cluster analysis 來分類 06/23 22:21

→ pig0038: 變數太少，資料量至少要一千筆以上感覺才有意義 06/23 22:22