作者yiche (陽光灑肩頭 彷若自由人)
看板DataScience
標題Re: [問題] 請問有人能用policy gradient的方法(vani
時間Fri Sep 3 11:22:44 2021
Reinforcement Learning的算法發展或是說解題思維分為三種:
1. Value based
2. Policy based
3. Actor Critic,兼容1+2
action_t = f(state_t)
RL要學的正好就是這個function f
1. 透過最佳化Q值來得出f
2. 則是直接學這個f
我認為殊途同歸,但各有優劣
我並沒有真的在mountain car這個環境中實作過算法
不過我相信PG算法是做得到的
底下這篇論文,提出了個PG方法於mountain car上實作,並且有做比較實驗,請見論文Fi
gure3
也許值得原po研讀一下
https://reurl.cc/VEG7A5
※ 引述《yuwenche (yuwenche)》之銘言:
: 請問有人能用policy gradient的方法(vanilla, TRPO, PPO等)成功解決"MountainCar-
v0
: 問題嗎? 或這問題只能用value learning methods(DQN,DRQN,GAIL等)才能解出?
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.37.15.106 (臺灣)
※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1630639366.A.AE1.html
※ 編輯: yiche (114.37.15.106 臺灣), 09/03/2021 11:24:39
→ yuwenche: 首先感謝所提供的意見及資料. 不過, 這個方法應該不能 09/04 12:58
→ yuwenche: 算是policy gradient algorithm.如題目所提的 GAIL,基 09/04 12:59
→ yuwenche: 本上是TRPO和GAN的結合,可用來解出這個問題, 但如果單 09/04 13:00
→ yuwenche: 用TRPO就解不出來了. 09/04 13:00
→ yuwenche: 其實作為一個 RL pactitioner, 也不會在意是否為policy 09/04 13:01
→ yuwenche: gradient或 MountainCar問題, 只要能解決真實問題就好( 09/04 13:03
→ yuwenche: 會抓老鼠的就是好貓). 不過真實世界的問題, 往往比能用 09/04 13:04
→ yuwenche: 數學描述的模型要複雜許多 09/04 13:09
→ yuwenche: ,因此先驗證演算法和程式沒問題, 底下才會作得扎實. 09/04 13:10