作者Darkflame (遙遠的距離)
看板DataScience
標題[問題] 利用Test的data部分來幫助訓練模型合理嗎
時間Thu Jul 14 16:12:56 2022
問題類別:(ex:ML,SVM,RL,DL,RNN,CNN,NLP,BD,Vis,etc...)
ML
問題內容:
如題,想請問大家對於利用Test set的data部分(沒用到labels)來幫助
建立or訓練模型是不是合理的?
以NLP來舉兩種情境:
情境1:
假設今天我有一些Product review,裡面的Test set包含有
sentences及labels (binary sentiment)。
如果利用Train set + Test set的所有sentences來建立TF-IDF feature,
並依照此TF-IDF feature來訓練classification model
訓練model時僅有用到Train set的labels(並沒有用到test set的labels),
這樣學術上是可接受的嗎?
情境2:
同樣是情境1的Product review data。假設今天我在訓練model的時候,
透過某種方法在訓練時增加在training set裡相似於test sentences的
那些sentences的權重,並減少在training set裡不相似於
test sentences的那些sentences的權重
(比如利用transformer embedding計算相似度,沒利用到test labels),
這樣學術上是可接受的嗎?
謝謝。
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 202.161.44.2 (新加坡)
※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1657786378.A.846.html
※ 編輯: Darkflame (202.161.44.2 新加坡), 07/14/2022 16:13:29
※ 編輯: Darkflame (202.161.44.2 新加坡), 07/14/2022 16:14:52
推 jigfopsda: 我覺得可以看你要比的 benchmark 有沒有也用到 07/14 16:53
→ fallcolor: inductive/transductive 07/14 18:34
→ Darkflame: 回1F 也是..不過如果是自己搜集的資料的話呢? 07/15 03:51
→ jigfopsda: 看應用吧?寫出一個 review 願意買單的故事就可以 07/15 21:41
推 cowbadma5566: 不行 被挑戰的時候你要怎麼說明呢 07/16 02:19
→ jack1218: 不行吧 07/17 02:27
→ wuyiulin: 不行 07/17 21:01
→ clliu168: 就是2F回的inductive/transductive learning。不是不行 07/18 22:25
→ clliu168: ,只是要 transductive 跟 transductive 比。最會碰到的 07/18 22:26
→ clliu168: 就是用 transductive learning 的結果跟 inductive 方法 07/18 22:27
→ clliu168: 比,那當然不公平,也不能這樣比。 07/18 22:27
推 KindWei: 可以,如樓上所說,想想你的應用場景,情境二就是 import 07/20 19:01
→ KindWei: ance sampling, 投稿要跟同類型方法比,只是要畢業就沒 07/20 19:01
→ KindWei: 差 07/20 19:01
推 cassida: 不 行 08/14 07:59