看板 Python 關於我們 聯絡資訊
版上各位好 小弟近期正在學機器學習 目前想用一些dataset來做練習 而我有一個疑問想問 如果data中有文字資料,那應該需要先用 labelencoder去把文字轉數字資料 但是如果今天我訓練完了 想用testing data來做驗證 那testing data的那些文字也需要轉成數字 才能丟進去驗證 那麼testing data中文字轉為數字的時候會不會有可能和在training data轉出來的不同 (例如training data上的apple對應到0 會不會在 testing data上的 apple對應到5之類的, 如果會那麼應該如何處理才好呢?) 感謝版上大大不吝賜教 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 27.246.70.188 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Python/M.1572882957.A.F39.html
numpy: 所以一開始要連同 testing data 一起餵給 labelencoder 11/05 00:29
littlebo1990: 之前做的做法是做出一個dictionary 在0位置 11/05 01:00
littlebo1990: 放unknown. Test和training用同一個dict轉 11/05 01:04
littlebo1990: test中沒在trainin出現過的都丟到unknown 11/05 01:05
oo855050: numpy大感謝你的建議 11/05 11:48
oo855050: little大 請問要如何比較兩組資料中有哪些是對方沒有出 11/05 11:49
oo855050: 現的 並且將那些資料的位置找出來呢 11/05 11:49
littlebo1990: 先各自轉成token (or數字), 然後把token 存成dict 11/06 01:07
littlebo1990: 再用set取出unique的字, 再用set的method 11/06 01:12
littlebo1990: Difference or Symmetric difference 11/06 01:12
littlebo1990: note:數字的話要確保 字到數字 是 one to one 11/06 01:13
oo855050: 好的感謝little大的教學 我再試試看^_^ 11/06 19:28