※ 引述《YOSHIK1 (a.testoni)》之銘言:
: 我猜老師的意思應該是critic 跟 actor 都保留
: 但是調整critic network不用系統模型微分,而是用PSO調
昨天想來想去用PSO調DHP也只有調critic這個方法
不過 shadow critic的目標值還是需要系統模型的微分 @@...
除非是 HDP ...
不過聽說HDP收斂性很爛...
: 再用調完的critic調actor
: ※ 引述《neumann (€ΝΕμΜΑΝΝ€)》之銘言:
: : 今天花了點時間研究 DHP
: : 研究他的network的weight如何update
: : 結果就是用back-propagation更新actor的weight 才會用到 critic的訊號(HDP也是)
: : 那這樣我用PSO調weight不就不用critic了!
: : 那這樣就不是DHP了啊....
: : 看到一篇426的IEEE會議論文寫用PSO調HDP
: : 結果方法完全沒提! 數據也很少
: : 看來真的是 426不意外!!
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 140.112.25.205
※ 編輯: neumann 來自: 140.112.25.205 (01/04 13:02)