看板 Soft_Job 關於我們 聯絡資訊
想請教軟體板上的眾多高手們, 小弟現有員工資料表一份,欄位有年資(StayYears) 及是否在職中(Status,A代表任職中,T代表已離職) 及所在國家(Country)等欄位。 想找出員工大多待多久就離職?例如年資為3.5到4.0之間的離職率最高(T的數目最多), 或是哪個國家的離職率最高? 想請問如果用R程式來寫該怎麼著手比較好? 謝謝~ 資料表格式如下: ID Name StayYears Status Country 1 John 3.5 T USA 2 Mary 2.1 A USA 3 Ben 1.7 T French 4 Kevin 3.2 T India 5 Cindy 2.6 A French 6 Jack 3.9 A USA 7 Peter 1.3 A India 8 Andy 2.7 T French 9 David 0.8 A India 10 Nick 1.1 A USA -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 59.124.165.66 ※ 文章網址: https://www.ptt.cc/bbs/Soft_Job/M.1498017231.A.72D.html
mike7689: excel就可以做了吧?區間分析然後畫直方圖 06/21 12:07
qazsd: 有沒有用R語言的方式 06/21 12:13
rodion: 怎不PO到R版問問? 06/21 12:23
rodion: 版名 R_Language 06/21 12:24
f496328mm: 已幫轉 R 版 06/21 12:40
drajan: Random forest 的varimp可以找出重要變數 06/21 15:32
eddy50811: 這是統計問題不是程式問題- - 06/21 15:58
Sixigma: 這個就是看各國離職比例吧,用幾個簡單的原生function 06/22 13:15
Sixigma: 就可以做了,D-tree或RF的確也可以拿重要變數出來 06/22 13:16
Sixigma: 就把status當作y,做二元分類,但有可能重要變數不是國家 06/22 13:17
Sixigma: 而且你這個feature的量太少了,做變數挑選沒什麼意思 06/22 13:17
Sixigma: 如果資料就長這樣,其實你變數也就年資跟國家 06/22 13:20
starcraftiii: 大學程度的東西,拿來這裡問,還蠻屌的 06/22 21:21
cmcotton: 羅吉斯迴歸 06/22 22:10
pig0038: 作Principle Component Analysis, 然後畫score plot, lo 06/23 22:21
pig0038: ading plot 或者先用cluster analysis 來分類 06/23 22:21
pig0038: 變數太少,資料量至少要一千筆以上感覺才有意義 06/23 22:22