看板 DataScience 關於我們 聯絡資訊
Reinforcement Learning的算法發展或是說解題思維分為三種: 1. Value based 2. Policy based 3. Actor Critic,兼容1+2 action_t = f(state_t) RL要學的正好就是這個function f 1. 透過最佳化Q值來得出f 2. 則是直接學這個f 我認為殊途同歸,但各有優劣 我並沒有真的在mountain car這個環境中實作過算法 不過我相信PG算法是做得到的 底下這篇論文,提出了個PG方法於mountain car上實作,並且有做比較實驗,請見論文Fi gure3 也許值得原po研讀一下 https://reurl.cc/VEG7A5 ※ 引述《yuwenche (yuwenche)》之銘言: : 請問有人能用policy gradient的方法(vanilla, TRPO, PPO等)成功解決"MountainCar- v0 : 問題嗎? 或這問題只能用value learning methods(DQN,DRQN,GAIL等)才能解出? -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.37.15.106 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1630639366.A.AE1.html ※ 編輯: yiche (114.37.15.106 臺灣), 09/03/2021 11:24:39
yuwenche: 首先感謝所提供的意見及資料. 不過, 這個方法應該不能 09/04 12:58
yuwenche: 算是policy gradient algorithm.如題目所提的 GAIL,基 09/04 12:59
yuwenche: 本上是TRPO和GAN的結合,可用來解出這個問題, 但如果單 09/04 13:00
yuwenche: 用TRPO就解不出來了. 09/04 13:00
yuwenche: 其實作為一個 RL pactitioner, 也不會在意是否為policy 09/04 13:01
yuwenche: gradient或 MountainCar問題, 只要能解決真實問題就好( 09/04 13:03
yuwenche: 會抓老鼠的就是好貓). 不過真實世界的問題, 往往比能用 09/04 13:04
yuwenche: 數學描述的模型要複雜許多 09/04 13:09
yuwenche: ,因此先驗證演算法和程式沒問題, 底下才會作得扎實. 09/04 13:10