[問題] 處理categorical資料及missing values方

作者bokxko1023 (bokxko1023)

看板Python

標題[問題] 處理categorical資料及missing values方

時間Mon Feb 27 17:32:26 2017

我在練習使用sklearn套件來進行機器學習目前使用的資料是一個3萬多筆的資料(14 features) 而14個特徵裡面有8個categorical的欄位像是性別、婚姻狀況等等，都是字串的形式我目前是使用pd.read_csv()，再用a = a.values把型態轉成array (因為我發現使用genfromtxt的話所有字串都會變Nan) 可是在用imputer處理missing value時，會出現錯誤:could not convert string to floa 使用imputer的程式碼: imp = imputer()， data = imp.fit(data) 至於處理categorical資料的方法，我查到的是: enc = preprocessing.OneHotEncoder() enc.fit(data) 但是因為在imputer時就先卡住了，所以還不知道這個方法對不對 (有missing value的話就無法使用enc) 請問大家: 1.我的imputer哪裡寫錯了呢? 2.匯入資料後的第一個步驟都是去除missing value對嗎? 3.我查到的處理categorical的方法是對的嗎? 4.資料的第一行column名有需要刪除嗎?例如: age,income等謝謝大家耐心看完，麻煩各位了! -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 122.116.222.230 ※ 文章網址: https://www.ptt.cc/bbs/Python/M.1488187948.A.3A3.html