看板 NTUEE_LAB206 關於我們 聯絡資訊
我猜老師的意思應該是critic 跟 actor 都保留 但是調整critic network不用系統模型微分,而是用PSO調 再用調完的critic調actor ※ 引述《neumann (€ΝΕμΜΑΝΝ€)》之銘言: : 今天花了點時間研究 DHP : 研究他的network的weight如何update : 結果就是用back-propagation更新actor的weight 才會用到 critic的訊號(HDP也是) : 那這樣我用PSO調weight不就不用critic了! : 那這樣就不是DHP了啊.... : 看到一篇426的IEEE會議論文寫用PSO調HDP : 結果方法完全沒提! 數據也很少 : 看來真的是 426不意外!! -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 114.45.177.24