看板 DataScience 關於我們 聯絡資訊
想請問各位版上的大大 做E-mail文本分類時 郵件內容可使用自然語言處理 若想加入寄件人、收件人等 非郵件內容文字的特徵 該如何操作... 可以給點關鍵字或給點指點 感謝各位先進 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.25.138.103 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1571232863.A.907.html
sxy67230: 最簡單粗暴的方法就你把全部的特徵都拼接起來,全部餵入 10/16 23:15
sxy67230: 一起train,第二種方法就訓練三個以上的模型,一個做內 10/16 23:15
sxy67230: 文分類,其他模型就各自訓練各自的特徵分類,最後在做en 10/16 23:15
sxy67230: semble 10/16 23:15
a100006136: 你的寄件人和收件人,上面有什麼跡象顯示它們是有用 10/24 18:05
a100006136: 的feature? 10/24 18:05
a100006136: 如果mail 小老鼠後面跟的字會有意義像是.com 或是.gov 10/24 18:10
a100006136: 會建議也可以對這些做segmentation,再用train好的英 10/24 18:10
a100006136: 文語言模型(web 文本train的)去抓feature 10/24 18:10
a100006136: 基本上其他非信件本文的內容,第一步是對每個材料去 10/24 18:21
a100006136: 思考如何量化,像是時間的格式、不同的寄信收件地址是 10/24 18:21
a100006136: 否進行編號、圖片則要用像素表示 10/24 18:21
a100006136: 然後再來就是每個材料適合的處理方式,時間的連續性可 10/24 18:21
a100006136: 以讓它獨立成為一個feature、地址的表示法可以像前面 10/24 18:21
a100006136: 說的視同文本取特徵、也可以當作不同的item 取one-hot 10/24 18:21
a100006136: 、圖片也是先接個cnn變成向量 10/24 18:21
a100006136: 至於模型的訓練選擇就如同1樓講的那樣,可以用多個模 10/24 18:24
a100006136: 型一起預測,也可以暴力concat這些特徵,每份郵件都 10/24 18:24
a100006136: 表示成一個向量後直接丟ML套件來分類也沒什麼不行 10/24 18:24
OnePiecePR: 統統送進去,只用label 指點方向 10/24 20:38
chobit199685: 修成聯合模型多輸入即可 11/07 21:43
sheep1129588: 先用bert把文本弄成embedding再concat其他東西再塞 11/12 11:58
sheep1129588: 進一個classifier? 11/12 11:58
roccqqck: concatenate的model1 model2可以不同features嗎 11/24 19:42
roccqqck: concatenate出來的model3 是跟model1 model2同時一起tra 11/25 13:42
roccqqck: in嗎? 11/25 13:42