看板 NTUEE_LAB206 關於我們 聯絡資訊
※ 引述《YOSHIK1 (a.testoni)》之銘言: : 我猜老師的意思應該是critic 跟 actor 都保留 : 但是調整critic network不用系統模型微分,而是用PSO調 昨天想來想去用PSO調DHP也只有調critic這個方法 不過 shadow critic的目標值還是需要系統模型的微分 @@... 除非是 HDP ... 不過聽說HDP收斂性很爛... : 再用調完的critic調actor : ※ 引述《neumann (€ΝΕμΜΑΝΝ€)》之銘言: : : 今天花了點時間研究 DHP : : 研究他的network的weight如何update : : 結果就是用back-propagation更新actor的weight 才會用到 critic的訊號(HDP也是) : : 那這樣我用PSO調weight不就不用critic了! : : 那這樣就不是DHP了啊.... : : 看到一篇426的IEEE會議論文寫用PSO調HDP : : 結果方法完全沒提! 數據也很少 : : 看來真的是 426不意外!! -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 140.112.25.205 ※ 編輯: neumann 來自: 140.112.25.205 (01/04 13:02)