Re: [問題] 請問有人能用policy gradient的方法(vani

作者yiche (陽光灑肩頭彷若自由人)

看板DataScience

標題Re: [問題] 請問有人能用policy gradient的方法(vani

時間Fri Sep 3 11:22:44 2021

Reinforcement Learning的算法發展或是說解題思維分為三種： 1. Value based 2. Policy based 3. Actor Critic，兼容1+2 action_t = f(state_t) RL要學的正好就是這個function f 1. 透過最佳化Q值來得出f 2. 則是直接學這個f 我認為殊途同歸，但各有優劣我並沒有真的在mountain car這個環境中實作過算法不過我相信PG算法是做得到的底下這篇論文，提出了個PG方法於mountain car上實作，並且有做比較實驗，請見論文Fi gure3 也許值得原po研讀一下 https://reurl.cc/VEG7A5 ※ 引述《yuwenche (yuwenche)》之銘言： : 請問有人能用policy gradient的方法(vanilla, TRPO, PPO等)成功解決"MountainCar- v0 : 問題嗎? 或這問題只能用value learning methods(DQN,DRQN,GAIL等)才能解出? -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.37.15.106 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1630639366.A.AE1.html ※ 編輯: yiche (114.37.15.106 臺灣), 09/03/2021 11:24:39

→ yuwenche: 首先感謝所提供的意見及資料. 不過, 這個方法應該不能 09/04 12:58

→ yuwenche: 算是policy gradient algorithm.如題目所提的 GAIL,基 09/04 12:59

→ yuwenche: 本上是TRPO和GAN的結合,可用來解出這個問題, 但如果單 09/04 13:00

→ yuwenche: 用TRPO就解不出來了. 09/04 13:00

→ yuwenche: 其實作為一個 RL pactitioner, 也不會在意是否為policy 09/04 13:01

→ yuwenche: gradient或 MountainCar問題, 只要能解決真實問題就好( 09/04 13:03

→ yuwenche: 會抓老鼠的就是好貓). 不過真實世界的問題, 往往比能用 09/04 13:04

→ yuwenche: 數學描述的模型要複雜許多 09/04 13:09

→ yuwenche: ,因此先驗證演算法和程式沒問題, 底下才會作得扎實. 09/04 13:10