看板 DataScience 關於我們 聯絡資訊
小弟新手發問如有文字上描述疏失請見諒,會再更改 如題,一個作業要預測男女的分類問題。 欄位中有一欄為文字的自我介紹, 目前在上網查找的文章中,文本分類基本上就是只針對文字內容進行處理跟預測,找不到 分類問題中欄位內有文字跟沒文字都有的教學, 因此想請教幾個作法是否正確: 1.目前文字的特徵是用tfidf算完,請問算完的欄位要合併到原本的資料集一起訓練 2.tfidf欄位跟原有的欄位分開訓練,文字欄位先訓練完將預測結果放入原有資料集的欄 位,再進行訓練 3.是否有較正統、常規的作法 或是提供關鍵字讓小弟可以上網再找看看 謝謝 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 42.72.137.88 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1585666942.A.F42.html
darklose: 我覺得兩個作法的差異在於 fusion 的階段不同,法ㄧ為 f 04/01 10:10
darklose: eature fusion,是用全部欄位去描述那一個人;法二比較 04/01 10:10
darklose: 接近結果 fusion,用自我介紹的預測結果去混合其他欄位 04/01 10:10
darklose: 的預測結果。總的來說,看你要用什麼思維來描述你的解法 04/01 10:10
darklose: ,並從中實作結果。 04/01 10:10
pugbana: 謝謝大大觀念講解,非常明確~ 04/01 23:34
BigTounge: 我的話會將自我介紹詞向量加總併入原本的資料一起訓練 04/02 03:35
BigTounge: 沒有的就塞0 04/02 03:36