看板 DataScience 關於我們 聯絡資訊
由於工作上遇到一般監督式學習解決不了的問題, 也可能是功力不到家, 總之會需要用強化學習試試看, 我目前的問題是一個監督式學習,有X有Y但就是學習不起來。 從課程上知道如果一個監督式學習訓練不起來, 可以使用強化學習的方法來試試看。 再參考網路上的文獻跟教程之後, 初步理解了像是 agent, environment, action, retrun, reward 等等專有名詞的定義, 也初步理解了 action function 以及 state transition function 這些函數的用途以及隨機性的原理。 問題來了,一般監督式學習(手寫辨識), 通常是有一些資料(X)及標記(Y), 接著就是寫一個forwrad流程來, 更新我的模型 weight 即可。 如果我要將這個問題(手寫辨識)用 RL 實作一次, 要怎樣做?我嘗試上網搜尋但是沒有找到類似的範本, 我從官方教學看到的範例是馬力歐跟木棒平衡(?) 我看完官方教學有感覺到 強化學習是要有一個互動環境才能 work 。 一般監督又要怎麼轉過去... 有沒有前輩可以指點,謝謝。 或是有看到相關的關鍵字都可以跟我說,感謝。 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 218.164.5.43 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1633574972.A.644.html
email81227: 我覺得你是不是搞混了強化學習跟遷移學習? 10/07 18:26
chang1248w: 不要繞遠路吧,講一下你的資料和模型怎麼選 10/07 18:38
wheado: 老闆希望的...我也覺得是繞遠路,但我無法說服別人... 10/07 22:17
kriswu8021: 怎麼會覺得supervised的做不了RL就做得出來xd 10/08 05:03
yiche: 覺得只是換一個解題思維,當我的最佳化對象不可微分時,設 10/08 10:24
yiche: 計為RL的reward 希望reward愈大愈好,用RL架構env-agent互 10/08 10:24
yiche: 動來解 10/08 10:24
yiche: 只是原po的情況,不曉得該怎麼設計為RL。 10/08 10:25
yuwenche: 這須要自己寫Env.,真實世界的RL問題通常要這麼作.不過, 10/08 11:45
yuwenche: 這應該比監督式學習難多了. 10/08 11:47
DarkIllusion: 不知道你想解什麼問題 但RL通常是用來解MDP問題的 10/08 15:20
DarkIllusion: 看到了 手寫辨識 這跟MDP問題看起來沒什麼關係 10/08 15:39
DarkIllusion: 也許你可以聊聊遇到了什麼困難? 10/08 15:42
kriswu8021: 不可微明明就還有很多更直接的optimization 啊… 10/09 01:08
ILYY: 感覺走錯路了 10/12 10:04
Bujo: 典型的老闆跟工程師都不知道自己的問題是什麼 10/22 17:54
RumiManiac: 要搞 RL 先把 Sutton 教科書讀過吧 10/28 11:52
RumiManiac: 你遇到監督式學習解決不了的,有分析清楚為何不行嗎 10/28 11:54
RumiManiac: 如果沒有,那改用 RL 做了也解決不了怎麼辦 10/28 11:54
yoche2000: 重點是 problem formulation 吧 11/04 15:20