[問題] 深度強化學習 (MADDPG)

作者chhuang17 ()

看板DataScience

標題[問題] 深度強化學習 (MADDPG)

時間Fri Jul 30 19:47:38 2021

MADDPG的Action Space必須是連續的不過小弟在翻文獻回顧的時候有些Action Space是離散的上網爬了一下文似乎是利用Gumbel-Softmax去逼近然而這部分我就沒有深究了 (文獻中也沒明說怎麼實作的) 不過我在想實作上能否套用MADDPG的架構 (中心化訓練、去中心化執行) 但實際上在local的Agent是採A2C的方式去選擇Action呢? 麻煩各位前輩指教了謝謝！ -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 140.112.4.209 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1627645660.A.815.html

推 sxy67230: Gumbel-softmax主要作用在取樣的時候，往往我們在取樣 07/31 10:38

→ sxy67230: 的時候都是用random choice或是加入機率分佈因素再取arg 07/31 10:38

→ sxy67230: max，但是如果你要在你整個網路訓練過程中加入就會導致 07/31 10:38

→ sxy67230: 你的反向傳播失效，因為這兩個步驟是不可微的，這樣你就 07/31 10:38

→ sxy67230: 沒辦法傳導你的梯度，所以用gumbel softmx再參數化去逼 07/31 10:38

→ sxy67230: 近random choice的取樣效果同時讓整個過程可微。 07/31 10:38

→ johnnyjana: 不知道樓上在講什麼 08/01 14:00

→ johnnyjana: gumbel softmax就只是個trick 把原本的probablity 08/01 14:04

→ johnnyjana: output 除上很小的"tau" 過“可微”的softmax之後機 08/01 14:04

→ johnnyjana: 率分佈很像是discrete的 08/01 14:04

了解了，不過我有看到一篇文獻是將binary的action space過sigmoid 該篇文獻最後一層通過y=sigmoid(1000x)，再output出來一樣都是逼近成類似discrete的機率分布想請問這樣的做法跟gumbel-softmax的差異在哪裡呢？或者說有一定要利用gumbel-softmax的理由不可嗎？ ※ 編輯: chhuang17 (140.112.10.31 臺灣), 08/01/2021 15:13:03

推 johnnyjana: 這個深度學習的問題沒有正確答案只能都試試看最後在 08/01 16:03

→ johnnyjana: paper唬爛一個答案唯一比較客觀分析還是看function 08/01 16:03

→ johnnyjana: 斜率比較兩者在你的dataset剃度的問題 08/01 16:03

推 sxy67230: 確實有一些前提沒有補充到，想說讓原PO去查文獻大概就 08/03 08:42

→ sxy67230: 明白了。首先，MADDPG整體架構還是一個DDPG，只是擴展08/03 08:42

→ sxy67230: 成考量multi-agent的狀況。然後考量傳統DPG採用待優化po08/03 08:42

→ sxy67230: licy跟取樣policy不同以解決exploration的問題，DDPG則08/03 08:43

→ sxy67230: 是加入reparameterization(再參數化)的技巧克服他，這08/03 08:43

→ sxy67230: 樣就不用再優化跟取樣用不同的policy。08/03 08:43

推 sxy67230: 另外，gumbel sofmax輸入也是離散分佈，如果用輸出也說08/03 08:50

→ sxy67230: 是離散會很容易誤導就是了。實際上應該是加入了gumbel d08/03 08:50

→ sxy67230: istribution後除以一個tau再做softmax，這樣就可以用tau08/03 08:50

→ sxy67230: 這個超參控制取樣的soft程度而已。08/03 08:50

推 sxy67230: 這樣就可以讓整體保有隨機性，而gumbel分佈就是很好描述08/03 08:59

→ sxy67230: 有極值的分佈，所以用再分類再取樣的效果就很合理，藉以08/03 08:59

→ sxy67230: 達到我們想優化的是P(zlx)這樣的空間分佈，可以參考VAE08/03 08:59

→ sxy67230: 的文獻實際上VAE也是這樣的技巧取樣，實際上可以去看一08/03 08:59

→ sxy67230: 下VI的推導，VAE算是一個很有統計學習加上隨機程序的模08/03 08:59

→ sxy67230: 型，整體推導流程也很優美，DDPG的作者也是借鑒這樣的08/03 08:59

→ sxy67230: 思路來做policy過程的取樣的。08/03 08:59

推 sxy67230: 然後再回到原PO sigmoid的問題上，我們如果假設輸入是服08/03 09:06

→ sxy67230: 從一個Bernoulli distribution的，那sigmoid跟 softmax08/03 09:06

→ sxy67230: 就是等價的，實際MADDPG的作者再實現上就是用這種技巧，08/03 09:06

→ sxy67230: 然後我看代碼其實也是再參數化的過程(sigmoid後一樣加上08/03 09:06

→ sxy67230: random uniform distribution)，不知道有沒有回答你的08/03 09:06

→ sxy67230: 問題。08/03 09:06

不好意思，之前一直忘記回覆很感謝兩位的詳細解釋！ ※ 編輯: chhuang17 (223.137.144.83 臺灣), 08/10/2021 01:49:07