看板 Python 關於我們 聯絡資訊
我在練習使用sklearn套件來進行機器學習 目前使用的資料是一個3萬多筆的資料(14 features) 而14個特徵裡面有8個categorical的欄位 像是性別、婚姻狀況等等,都是字串的形式 我目前是使用pd.read_csv(),再用a = a.values把型態轉成array (因為我發現使用genfromtxt的話所有字串都會變Nan) 可是在用imputer處理missing value時,會出現錯誤:could not convert string to floa 使用imputer的程式碼: imp = imputer(), data = imp.fit(data) 至於處理categorical資料的方法,我查到的是: enc = preprocessing.OneHotEncoder() enc.fit(data) 但是因為在imputer時就先卡住了,所以還不知道這個方法對不對 (有missing value的話就無法使用enc) 請問大家: 1.我的imputer哪裡寫錯了呢? 2.匯入資料後的第一個步驟都是去除missing value對嗎? 3.我查到的處理categorical的方法是對的嗎? 4.資料的第一行column名有需要刪除嗎?例如: age,income等 謝謝大家耐心看完,麻煩各位了! -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 122.116.222.230 ※ 文章網址: https://www.ptt.cc/bbs/Python/M.1488187948.A.3A3.html