推 yiche: 一般來說,DQN(value based)的設計action space是離散的情 09/30 19:26
→ yiche: 況,DDPG(policy based)則是continuous的action space,所 09/30 19:26
→ yiche: 以這樣的做法似乎是可以理解的。 09/30 19:26
推 yiche: 建議可以看一下DDPG 算法的action設計映射到什麼區間 09/30 19:30
y大的意思是該篇paper使用DDPG演算法的action設計嗎
該篇文獻的action設計落在最小綠燈時間~最大綠燈時間這段區間
※ 編輯: chhuang17 (223.136.114.28 臺灣), 09/30/2021 19:36:33
推 yiche: 瞭解,其實我原本猜nn 輸出action是0-1區間,沒想到直接輸 09/30 19:48
→ yiche: 出成秒數區間,謝謝分享。 09/30 19:48
確實是有文獻輸出的action落在[0,1],定義為綠燈時間縮放因子
不過該篇的Δt是固定的,每隔Δt秒更新時制計畫
這也是我目前論文採用的action設計
這篇貼文只是想釐清一些DDPG的觀念,怕到時候meeting回答不出來><"
※ 編輯: chhuang17 (223.136.114.28 臺灣), 09/30/2021 21:24:57
推 yiche: 原始論文和DQN還差在targetNet是hard/soft update,不過我 09/30 22:07
→ yiche: 自己的經驗是都train得起來啦 (笑 09/30 22:07