看板 DataScience 關於我們 聯絡資訊
最近在看 Transfer Learning, 但其實在之前接觸到預訓練模型就一直有一個疑問到現在 在不同任務上面的模型拿到新的、截然不同的任務上面為什麼會 WORK ? 常見的的說法可能是當我們使用之前Train好的模型上 可以提取到ㄧ些比較通用的特徵 利用這樣的方式來做遷移學習 但還是有一個疑問是 既然是不同的任務,提取的特徵應該也還是不同的 暫且不論整個 model 拿來用有時候都有不錯的結果 即使我們只 fix 前面幾層,讓後面幾層重新train 兩個任務間通用的特徵可能還是會不同 為什麼後面的結果還是會 OK ? 不知道大家有沒有比較直覺式的想法 ? -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 1.161.19.240 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1563150712.A.7F3.html
jackwang01: 比起隨機產生的noise權重,至少在別的項目上有學到一 07/15 11:56
jackwang01: 些基本的形狀、顏色等等的特徵 07/15 11:56
kyushu: 要直覺的說,就是越靠近input 端的layer學習到的是越低階 07/15 19:48
kyushu: 的特徵,越靠近loss端的layer是越高階的特徵 07/15 19:48
goldflower: 我會想成不管你拿什麼任務 在理想情況下都是抽出一堆 07/15 20:53
goldflower: 獨立的basis 那即使這些basis不同(即不同任務抽取的 07/15 20:53
goldflower: 特徵) 他們都能一定程度的表示好資料的超空間 07/15 20:53
thefattiger: 以影像來講,傳統CV都是用那幾種descriptor解決問題 07/15 21:56
thefattiger: 換個task就只是取得descriptor後的用法不同 07/15 21:57
sxy67230: Transfer的概念用你可以用實例會比較清楚,圖像就是把別 07/15 23:12
sxy67230: 的模型上層分類大尺寸的都拔掉,剩下點、線、色彩這些cn 07/15 23:12
sxy67230: n的特徵是不用fine tune 的。語音的部分就是保留發音結 07/15 23:12
sxy67230: 構的特徵,所以你只要重新訓練音調那些特徵就好了。 07/15 23:12
sxy67230: 從向量的角度出發就是你把相似的task當成bias去繼續做gr 07/15 23:15
sxy67230: adient,所以你會發現到訓練完成後,你在去預測原本的 07/15 23:15
sxy67230: 任務,原本的任務就爛掉了。 07/15 23:15
erre: 用googlenet改參數,掰陳是這樣做的 07/16 23:15