看板 DataScience 關於我們 聯絡資訊
[作業系統]:Ubuntu [問題類別]:ML genertaor [問題內容]: 各位大大好, 我的目的是 : 訓練一個model, 將輸入文檔dataA經過重新排列/刪除/替代等動作後, 輸 出新的文檔dataB 因為沒有做過文字類的訓練, 所以有些問題想請教各位先進 我的問題是 : 1.1 首先我要將本文dataA映射到vector space, 因為我的dataA是純字元+數字+符號, 所 以沒有前後文語意相關性的問題 如果透過word2vector以字元為單位, 看起來就像是指定一個index給它, 如果是這樣的 話, 是不是直接轉ascii碼也可行 1.2 因為已知input(x):dataA 與 output(y):dataB, 所以屬於supervised learning 這樣我的文檔(dataA, dataB)轉成vector時, 是不是整篇轉成一維的矩陣即可 2. 依照我的需求, 我應該是要找一個supervised generator model 感覺我的應用可以參考AutoEncoder, 看了幾篇還是不好下手 其中有看到一篇eForest(AutoEncoder by forest), 但是github中用的都是classifier和 regressor, 沒有generator的範例 想請教各位大大是否有建議的model/github可以提供參考&練習, 或者是我前面的思路有 誤, 請指正, 謝謝 感恩 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 223.140.163.29 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1576035052.A.6A7.html
erre: 掰陳call svm, 參考看看 12/12 10:08
school4303: 不要理一樓 他來亂的 12/12 15:57
illegalplan: 你這如果完全沒有順序問題的話 就是訓練一種 bag of 12/13 23:59
illegalplan: word vector mapping. 也可以試試seq2seq model 12/13 23:59
illegalplan: 把他當機器翻譯做 12/14 00:00
patrick2dot0: 1.1可以用ascii 但要轉one hot encoding 12/15 00:58
patrick2dot0: 1.2你dataA跟dataB的長度固定嗎? 12/15 00:59
patrick2dot0: 不固定的話可以參考seq2seq 12/15 01:00
patrick2dot0: 前處理可以參考pytorch tutorial的 12/15 01:02
patrick2dot0: https://reurl.cc/M7gdlX 12/15 01:07