[問題] 監督式學習的資料使用強化學習方法實作

作者wheado (principal component QQ)

看板DataScience

標題[問題] 監督式學習的資料使用強化學習方法實作

時間Thu Oct 7 10:49:30 2021

由於工作上遇到一般監督式學習解決不了的問題，也可能是功力不到家，總之會需要用強化學習試試看，我目前的問題是一個監督式學習，有X有Y但就是學習不起來。從課程上知道如果一個監督式學習訓練不起來，可以使用強化學習的方法來試試看。再參考網路上的文獻跟教程之後，初步理解了像是 agent, environment, action, retrun, reward 等等專有名詞的定義，也初步理解了 action function 以及 state transition function 這些函數的用途以及隨機性的原理。問題來了，一般監督式學習(手寫辨識)，通常是有一些資料(X)及標記(Y)，接著就是寫一個forwrad流程來，更新我的模型 weight 即可。如果我要將這個問題(手寫辨識)用 RL 實作一次，要怎樣做？我嘗試上網搜尋但是沒有找到類似的範本，我從官方教學看到的範例是馬力歐跟木棒平衡(?) 我看完官方教學有感覺到強化學習是要有一個互動環境才能 work 。一般監督又要怎麼轉過去... 有沒有前輩可以指點，謝謝。或是有看到相關的關鍵字都可以跟我說，感謝。 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 218.164.5.43 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1633574972.A.644.html

→ email81227: 我覺得你是不是搞混了強化學習跟遷移學習? 10/07 18:26

→ chang1248w: 不要繞遠路吧，講一下你的資料和模型怎麼選 10/07 18:38

→ wheado: 老闆希望的...我也覺得是繞遠路，但我無法說服別人... 10/07 22:17

推 kriswu8021: 怎麼會覺得supervised的做不了RL就做得出來xd 10/08 05:03

推 yiche: 覺得只是換一個解題思維，當我的最佳化對象不可微分時，設 10/08 10:24

→ yiche: 計為RL的reward 希望reward愈大愈好，用RL架構env-agent互 10/08 10:24

→ yiche: 動來解 10/08 10:24

→ yiche: 只是原po的情況，不曉得該怎麼設計為RL。 10/08 10:25

→ yuwenche: 這須要自己寫Env.,真實世界的RL問題通常要這麼作.不過, 10/08 11:45

→ yuwenche: 這應該比監督式學習難多了. 10/08 11:47

→ DarkIllusion: 不知道你想解什麼問題但RL通常是用來解MDP問題的 10/08 15:20

→ DarkIllusion: 看到了手寫辨識這跟MDP問題看起來沒什麼關係 10/08 15:39

→ DarkIllusion: 也許你可以聊聊遇到了什麼困難? 10/08 15:42

→ kriswu8021: 不可微明明就還有很多更直接的optimization 啊… 10/09 01:08

推 ILYY: 感覺走錯路了 10/12 10:04

推 Bujo: 典型的老闆跟工程師都不知道自己的問題是什麼 10/22 17:54

→ RumiManiac: 要搞 RL 先把 Sutton 教科書讀過吧 10/28 11:52

→ RumiManiac: 你遇到監督式學習解決不了的，有分析清楚為何不行嗎 10/28 11:54

→ RumiManiac: 如果沒有，那改用 RL 做了也解決不了怎麼辦 10/28 11:54

→ yoche2000: 重點是 problem formulation 吧 11/04 15:20