作者oe725 ( )
看板DataScience
標題[問題] generator model的相關問題
時間Wed Dec 11 11:30:50 2019
[作業系統]:Ubuntu
[問題類別]:ML genertaor
[問題內容]:
各位大大好,
我的目的是 : 訓練一個model, 將輸入文檔dataA經過重新排列/刪除/替代等動作後, 輸
出新的文檔dataB
因為沒有做過文字類的訓練, 所以有些問題想請教各位先進
我的問題是 :
1.1 首先我要將本文dataA映射到vector space, 因為我的dataA是純字元+數字+符號, 所
以沒有前後文語意相關性的問題
如果透過word2vector以字元為單位, 看起來就像是指定一個index給它, 如果是這樣的
話, 是不是直接轉ascii碼也可行
1.2 因為已知input(x):dataA 與 output(y):dataB, 所以屬於supervised learning
這樣我的文檔(dataA, dataB)轉成vector時, 是不是整篇轉成一維的矩陣即可
2. 依照我的需求, 我應該是要找一個supervised generator model
感覺我的應用可以參考AutoEncoder, 看了幾篇還是不好下手
其中有看到一篇eForest(AutoEncoder by forest), 但是github中用的都是classifier和
regressor, 沒有generator的範例
想請教各位大大是否有建議的model/github可以提供參考&練習, 或者是我前面的思路有
誤, 請指正, 謝謝
感恩
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 223.140.163.29 (臺灣)
※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1576035052.A.6A7.html
→ erre: 掰陳call svm, 參考看看 12/12 10:08
→ school4303: 不要理一樓 他來亂的 12/12 15:57
推 illegalplan: 你這如果完全沒有順序問題的話 就是訓練一種 bag of 12/13 23:59
→ illegalplan: word vector mapping. 也可以試試seq2seq model 12/13 23:59
→ illegalplan: 把他當機器翻譯做 12/14 00:00
→ patrick2dot0: 1.1可以用ascii 但要轉one hot encoding 12/15 00:58
→ patrick2dot0: 1.2你dataA跟dataB的長度固定嗎? 12/15 00:59
→ patrick2dot0: 不固定的話可以參考seq2seq 12/15 01:00
→ patrick2dot0: 前處理可以參考pytorch tutorial的 12/15 01:02