[問題] 多個模型比較問題

作者kero961240 (kobe)

看板DataScience

標題[問題] 多個模型比較問題

時間Fri Nov 2 21:25:06 2018

想請問各位大大，目前小弟在工作上用了一個二分類模型預測率來到 90%，但老闆不太滿意，問說假如要99％怎麼辦小弟提出一個想法，目前有三個差不多的模型分別為SVM 深度學習隨機森林都有接近 90% 的準確我倒入一組新的樣本(假設未知標籤），讓三個去辨別，選擇三個模型中最多人判別的結果，再把另一個當作判別錯誤丟進去那個模型的 train data，重新訓練模型，請問這樣是可行的嗎會造成什麼問題嗎？ -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 1.172.92.239 ※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1541165109.A.12F.html

→ Mchord: 感覺這種做法會產生很強的bias，搞不好的東西更加搞不好 11/02 22:09

我懂Ｍ大意思，容易錯更是錯的我原本是想說三者皆有長處，擷取他們長處 ※ 編輯: kero961240 (1.172.92.239), 11/02/2018 22:11:45 ※ 編輯: kero961240 (1.172.92.239), 11/02/2018 22:12:26 ※ 編輯: kero961240 (1.172.92.239), 11/02/2018 22:15:18 ※ 編輯: kero961240 (1.172.92.239), 11/02/2018 22:15:38

推 jkkert: 有點ensemble的概念 11/02 22:32

推 dongogo: kaggle比賽常用ensemble多個模型結果是可以improve一些 11/02 22:53

推 a78998042a: 假設你現在建模的資料集是A，未標記的是B。 11/03 00:47

→ a78998042a: 如果你的A、B相似性高，則訓練出來新樣本也就90%準度 11/03 00:47

→ a78998042a: 所以不會提升準確性；如果B的剛好適應模行，使得B資 11/03 00:47

→ a78998042a: 料的正確率100%，準確率會提高，但模型更容易overfitt 11/03 00:48

→ a78998042a: 如果A、B根本不像，你用A預測B都是錯的，很難期望會 11/03 00:48

→ a78998042a: 拉更高。 11/03 00:48

→ a78998042a: 只有B的資料跟A不像，但B擁有正確標籤，才有可能cover 11/03 00:49

→ a78998042a: 原本沒解釋到的部分。 11/03 00:49

→ a78998042a: 用原始資料調整增加樣本是挺常見的，不過目標通常是希 11/03 00:51

→ a78998042a: 望之後在預測時可以cover一些資料沒有，但可能出現的 11/03 00:52

→ a78998042a: 況，像是圖像翻轉。所以期望是模型更廣泛，提高是看運 11/03 00:53

→ a78998042a: 氣。至於你的方式讓模型更general都做不到，如果真的 11/03 00:55

→ a78998042a: 預測正確率提升，我反而會擔心。 11/03 00:55

→ a78998042a: 第一段指的都是你新增自建標籤資料後，新模型的變化。 11/03 00:58

→ wrt: 論文多讀一點可以發現其實蠻多人在用組合模型 11/03 01:51

→ wrt: 只是準確率提升但是速度很慢 11/03 01:51

→ yoyololicon: 要提升到99%只靠組合有點難ㄟ 11/03 07:09

→ yoyololicon: 而且又不知道你的三個Model是不是剛好互補 11/03 07:11

→ yoyololicon: 99%>>>>>不可跨越之壁>>>>>>90% 11/03 07:12

推 gbd37: 資料已經90%了應該無法跨越到99%去 11/03 07:59

→ a78998042a: 不確定樓上有沒有看懂或是我誤解了，原po說他有一組沒 11/03 10:11

→ a78998042a: 標籤的資料，想用投票設定標籤，利用這組資料增加正確 11/03 10:11

→ a78998042a: 率。這個想法可不可行後，才會去探討有沒有90%跟99%的 11/03 10:11

→ a78998042a: 問題吧。 11/03 10:11

推 zxp9505007: 通常提升程度沒那麼高 11/03 10:30

→ ice80712: 半監督式學習？ 11/03 18:28

推 yoyololicon: 喔我搞錯惹 11/03 19:28

→ yoyololicon: 應該可以試試但提升程度應該不大 11/03 19:28

→ Mchord: 如果你真想要增加偽標籤，用這三者產出soft-label可能還安 11/03 19:41

→ Mchord: 全一點 11/03 19:41

Ｍ大您好，不太懂您的意思，可否交流一下 ※ 編輯: kero961240 (1.172.112.140), 11/03/2018 23:10:18

推 steveyeh987: 先嘗試做模型的ensemble，semi-supervised learning 11/03 23:44

→ steveyeh987: 不一定會比較好 11/03 23:44

推 yiefaung: training acc是多少?data是否imbalance或有noise? 11/04 17:35