推 goldflower: 我現在都用entity embedding吧 03/17 14:56
推 goldflower: 然後後面看不太懂 是說跟數值一起訓練感覺很怪嗎? 03/17 15:01
假如資料長這樣(假設都是X變數)
┌────────┐
│ Letter number│
│1 "A" 9 │
│2 "B" 4 │
│3 "C" 8 │
│4 "D" 7 │
└────────┘
那如果把Letter這個column做one hot encoding應該會變成這樣
┌──────────┐
│ Letter number │
│1 [1,0,0,0] 9 │
│2 [0,1,0,0] 4 │
│3 [0,0,1,0] 8 │
│4 [0,0,0,1] 7 │
└──────────┘
這種每個column維度不一樣的資料怎麼輸入到model裡呢? 第一個col會是array,第二個
依然是int或numeric
推 goldflower: 這個情形你的letter就會拆成四個numerical惹 03/17 16:13
→ goldflower: 所以以這個例子你現在變成有5個feature 03/17 16:14
那這樣不就跟轉dummy variable一樣了嗎
※ 編輯: HumuHumu (114.32.209.214), 03/17/2018 17:30:55
推 goldflower: 其實這兩個還真的是一樣的 差一個維度而已 03/17 17:48
→ goldflower: 之所以要差個維度是要避免什麼多重共線性的東西 03/17 17:50
→ goldflower: 但這個在ML的世界不是什麼問題 所以都用one-hot 03/17 17:51