作者pugbana (口正)
看板DataScience
標題[問題] 分類問題 欄位中有文字的處理方式
時間Tue Mar 31 23:02:20 2020
小弟新手發問如有文字上描述疏失請見諒,會再更改
如題,一個作業要預測男女的分類問題。
欄位中有一欄為文字的自我介紹,
目前在上網查找的文章中,文本分類基本上就是只針對文字內容進行處理跟預測,找不到
分類問題中欄位內有文字跟沒文字都有的教學,
因此想請教幾個作法是否正確:
1.目前文字的特徵是用tfidf算完,請問算完的欄位要合併到原本的資料集一起訓練
2.tfidf欄位跟原有的欄位分開訓練,文字欄位先訓練完將預測結果放入原有資料集的欄
位,再進行訓練
3.是否有較正統、常規的作法
或是提供關鍵字讓小弟可以上網再找看看 謝謝
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 42.72.137.88 (臺灣)
※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1585666942.A.F42.html
→ darklose: 我覺得兩個作法的差異在於 fusion 的階段不同,法ㄧ為 f 04/01 10:10
→ darklose: eature fusion,是用全部欄位去描述那一個人;法二比較 04/01 10:10
→ darklose: 接近結果 fusion,用自我介紹的預測結果去混合其他欄位 04/01 10:10
→ darklose: 的預測結果。總的來說,看你要用什麼思維來描述你的解法 04/01 10:10
→ darklose: ,並從中實作結果。 04/01 10:10
→ pugbana: 謝謝大大觀念講解,非常明確~ 04/01 23:34
推 BigTounge: 我的話會將自我介紹詞向量加總併入原本的資料一起訓練 04/02 03:35
→ BigTounge: 沒有的就塞0 04/02 03:36