[問題] 利用Test的data部分來幫助訓練模型合理嗎

作者Darkflame (遙遠的距離)

看板DataScience

標題[問題] 利用Test的data部分來幫助訓練模型合理嗎

時間Thu Jul 14 16:12:56 2022

問題類別:(ex：ML,SVM,RL,DL,RNN,CNN,NLP,BD,Vis,etc...) ML 問題內容: 如題，想請問大家對於利用Test set的data部分(沒用到labels)來幫助建立or訓練模型是不是合理的？以NLP來舉兩種情境：情境1: 假設今天我有一些Product review，裡面的Test set包含有 sentences及labels (binary sentiment)。如果利用Train set + Test set的所有sentences來建立TF-IDF feature，並依照此TF-IDF feature來訓練classification model 訓練model時僅有用到Train set的labels(並沒有用到test set的labels)，這樣學術上是可接受的嗎？情境2: 同樣是情境1的Product review data。假設今天我在訓練model的時候，透過某種方法在訓練時增加在training set裡相似於test sentences的那些sentences的權重，並減少在training set裡不相似於 test sentences的那些sentences的權重 (比如利用transformer embedding計算相似度，沒利用到test labels)，這樣學術上是可接受的嗎？謝謝。 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 202.161.44.2 (新加坡) ※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1657786378.A.846.html ※ 編輯: Darkflame (202.161.44.2 新加坡), 07/14/2022 16:13:29 ※ 編輯: Darkflame (202.161.44.2 新加坡), 07/14/2022 16:14:52

推 jigfopsda: 我覺得可以看你要比的 benchmark 有沒有也用到 07/14 16:53

→ fallcolor: inductive/transductive 07/14 18:34

→ Darkflame: 回1F 也是..不過如果是自己搜集的資料的話呢？ 07/15 03:51

→ jigfopsda: 看應用吧？寫出一個 review 願意買單的故事就可以 07/15 21:41

推 cowbadma5566: 不行被挑戰的時候你要怎麼說明呢 07/16 02:19

→ jack1218: 不行吧 07/17 02:27

→ wuyiulin: 不行 07/17 21:01

→ clliu168: 就是2F回的inductive/transductive learning。不是不行 07/18 22:25

→ clliu168: ，只是要 transductive 跟 transductive 比。最會碰到的 07/18 22:26

→ clliu168: 就是用 transductive learning 的結果跟 inductive 方法 07/18 22:27

→ clliu168: 比，那當然不公平，也不能這樣比。 07/18 22:27

推 KindWei: 可以，如樓上所說，想想你的應用場景，情境二就是 import 07/20 19:01

→ KindWei: ance sampling，投稿要跟同類型方法比，只是要畢業就沒 07/20 19:01

→ KindWei: 差 07/20 19:01

推 cassida: 不行 08/14 07:59