看板 DataScience 關於我們 聯絡資訊
想請問各位大大,目前小弟在工作上用了一個二分類模型 預測率來到 90%,但老闆不太滿意,問說假如要99% 怎麼辦 小弟提出一個想法,目前有三個差不多的模型 分別為SVM 深度學習 隨機森林 都有接近 90% 的準確 我倒入一組新的樣本(假設未知標籤),讓三個去辨別, 選擇三個模型中最多人判別的結果,再把另一個當作判別錯誤 丟進去那個模型的 train data,重新訓練模型,請問這樣是可行的嗎 會造成什麼問題嗎? -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 1.172.92.239 ※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1541165109.A.12F.html
Mchord: 感覺這種做法會產生很強的bias,搞不好的東西更加搞不好 11/02 22:09
我懂 M 大意思,容易錯更是錯的 我原本是想說三者皆有長處,擷取他們長處 ※ 編輯: kero961240 (1.172.92.239), 11/02/2018 22:11:45 ※ 編輯: kero961240 (1.172.92.239), 11/02/2018 22:12:26 ※ 編輯: kero961240 (1.172.92.239), 11/02/2018 22:15:18 ※ 編輯: kero961240 (1.172.92.239), 11/02/2018 22:15:38
jkkert: 有點ensemble的概念 11/02 22:32
dongogo: kaggle比賽常用ensemble多個模型結果 是可以improve一些 11/02 22:53
a78998042a: 假設你現在建模的資料集是A,未標記的是B。 11/03 00:47
a78998042a: 如果你的A、B相似性高,則訓練出來新樣本也就90%準度 11/03 00:47
a78998042a: 所以不會提升準確性;如果B的剛好適應模行,使得B資 11/03 00:47
a78998042a: 料的正確率100%,準確率會提高,但模型更容易overfitt 11/03 00:48
a78998042a: 如果A、B根本不像,你用A預測B都是錯的,很難期望會 11/03 00:48
a78998042a: 拉更高。 11/03 00:48
a78998042a: 只有B的資料跟A不像,但B擁有正確標籤,才有可能cover 11/03 00:49
a78998042a: 原本沒解釋到的部分。 11/03 00:49
a78998042a: 用原始資料調整增加樣本是挺常見的,不過目標通常是希 11/03 00:51
a78998042a: 望之後在預測時可以cover一些資料沒有,但可能出現的 11/03 00:52
a78998042a: 況,像是圖像翻轉。所以期望是模型更廣泛,提高是看運 11/03 00:53
a78998042a: 氣。至於你的方式讓模型更general都做不到,如果真的 11/03 00:55
a78998042a: 預測正確率提升,我反而會擔心。 11/03 00:55
a78998042a: 第一段指的都是你新增自建標籤資料後,新模型的變化。 11/03 00:58
wrt: 論文多讀一點可以發現其實蠻多人在用組合模型 11/03 01:51
wrt: 只是準確率提升但是速度很慢 11/03 01:51
yoyololicon: 要提升到99%只靠組合有點難ㄟ 11/03 07:09
yoyololicon: 而且又不知道你的三個Model是不是剛好互補 11/03 07:11
yoyololicon: 99%>>>>>不可跨越之壁>>>>>>90% 11/03 07:12
gbd37: 資料已經90%了 應該無法跨越到99%去 11/03 07:59
a78998042a: 不確定樓上有沒有看懂或是我誤解了,原po說他有一組沒 11/03 10:11
a78998042a: 標籤的資料,想用投票設定標籤,利用這組資料增加正確 11/03 10:11
a78998042a: 率。這個想法可不可行後,才會去探討有沒有90%跟99%的 11/03 10:11
a78998042a: 問題吧。 11/03 10:11
zxp9505007: 通常提升程度沒那麼高 11/03 10:30
ice80712: 半監督式學習? 11/03 18:28
yoyololicon: 喔我搞錯惹 11/03 19:28
yoyololicon: 應該可以試試但提升程度應該不大 11/03 19:28
Mchord: 如果你真想要增加偽標籤,用這三者產出soft-label可能還安 11/03 19:41
Mchord: 全一點 11/03 19:41
M大您好,不太懂您的意思,可否交流一下 ※ 編輯: kero961240 (1.172.112.140), 11/03/2018 23:10:18
steveyeh987: 先嘗試做模型的ensemble,semi-supervised learning 11/03 23:44
steveyeh987: 不一定會比較好 11/03 23:44
yiefaung: training acc是多少?data是否imbalance或有noise? 11/04 17:35