看板 DataScience 關於我們 聯絡資訊
問題類別:(ex:ML,SVM,RL,DL,RNN,CNN,NLP,BD,Vis,etc...) ML 問題內容: 如題,想請問大家對於利用Test set的data部分(沒用到labels)來幫助 建立or訓練模型是不是合理的? 以NLP來舉兩種情境: 情境1: 假設今天我有一些Product review,裡面的Test set包含有 sentences及labels (binary sentiment)。 如果利用Train set + Test set的所有sentences來建立TF-IDF feature, 並依照此TF-IDF feature來訓練classification model 訓練model時僅有用到Train set的labels(並沒有用到test set的labels), 這樣學術上是可接受的嗎? 情境2: 同樣是情境1的Product review data。假設今天我在訓練model的時候, 透過某種方法在訓練時增加在training set裡相似於test sentences的 那些sentences的權重,並減少在training set裡不相似於 test sentences的那些sentences的權重 (比如利用transformer embedding計算相似度,沒利用到test labels), 這樣學術上是可接受的嗎? 謝謝。 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 202.161.44.2 (新加坡) ※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1657786378.A.846.html ※ 編輯: Darkflame (202.161.44.2 新加坡), 07/14/2022 16:13:29 ※ 編輯: Darkflame (202.161.44.2 新加坡), 07/14/2022 16:14:52
jigfopsda: 我覺得可以看你要比的 benchmark 有沒有也用到 07/14 16:53
fallcolor: inductive/transductive 07/14 18:34
Darkflame: 回1F 也是..不過如果是自己搜集的資料的話呢? 07/15 03:51
jigfopsda: 看應用吧?寫出一個 review 願意買單的故事就可以 07/15 21:41
cowbadma5566: 不行 被挑戰的時候你要怎麼說明呢 07/16 02:19
jack1218: 不行吧 07/17 02:27
wuyiulin: 不行 07/17 21:01
clliu168: 就是2F回的inductive/transductive learning。不是不行 07/18 22:25
clliu168: ,只是要 transductive 跟 transductive 比。最會碰到的 07/18 22:26
clliu168: 就是用 transductive learning 的結果跟 inductive 方法 07/18 22:27
clliu168: 比,那當然不公平,也不能這樣比。 07/18 22:27
KindWei: 可以,如樓上所說,想想你的應用場景,情境二就是 import 07/20 19:01
KindWei: ance sampling, 投稿要跟同類型方法比,只是要畢業就沒 07/20 19:01
KindWei: 差 07/20 19:01
cassida: 不 行 08/14 07:59