看板 DataScience 關於我們 聯絡資訊
MADDPG的Action Space必須是連續的 不過小弟在翻文獻回顧的時候 有些Action Space是離散的 上網爬了一下文 似乎是利用Gumbel-Softmax去逼近 然而這部分我就沒有深究了 (文獻中也沒明說怎麼實作的) 不過我在想 實作上能否套用MADDPG的架構 (中心化訓練、去中心化執行) 但實際上在local的Agent是採A2C的方式去選擇Action呢? 麻煩各位前輩指教了 謝謝! -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 140.112.4.209 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1627645660.A.815.html
sxy67230: Gumbel-softmax主要作用在取樣的時候,往往我們在取樣 07/31 10:38
sxy67230: 的時候都是用random choice或是加入機率分佈因素再取arg 07/31 10:38
sxy67230: max,但是如果你要在你整個網路訓練過程中加入就會導致 07/31 10:38
sxy67230: 你的反向傳播失效,因為這兩個步驟是不可微的,這樣你就 07/31 10:38
sxy67230: 沒辦法傳導你的梯度,所以用gumbel softmx再參數化去逼 07/31 10:38
sxy67230: 近random choice的取樣效果同時讓整個過程可微。 07/31 10:38
johnnyjana: 不知道樓上在講什麼 08/01 14:00
johnnyjana: gumbel softmax就只是個trick 把原本的probablity 08/01 14:04
johnnyjana: output 除上很小的"tau" 過“可微”的softmax之後機 08/01 14:04
johnnyjana: 率分佈很像是discrete的 08/01 14:04
了解了,不過我有看到一篇文獻是將binary的action space過sigmoid 該篇文獻最後一層通過y=sigmoid(1000x),再output出來 一樣都是逼近成類似discrete的機率分布 想請問這樣的做法跟gumbel-softmax的差異在哪裡呢? 或者說 有一定要利用gumbel-softmax的理由不可嗎? ※ 編輯: chhuang17 (140.112.10.31 臺灣), 08/01/2021 15:13:03
johnnyjana: 這個深度學習的問題沒有正確答案 只能都試試看最後在 08/01 16:03
johnnyjana: paper唬爛一個答案 唯一比較客觀分析還是看function 08/01 16:03
johnnyjana: 斜率 比較兩者在你的dataset剃度的問題 08/01 16:03
sxy67230: 確實有一些前提沒有補充到,想說讓原PO去查文獻大概就 08/03 08:42
sxy67230: 明白了。首先,MADDPG整體架構還是一個DDPG,只是擴展08/03 08:42
sxy67230: 成考量multi-agent的狀況。然後考量傳統DPG採用待優化po08/03 08:42
sxy67230: licy跟取樣policy不同以解決exploration的問題,DDPG則08/03 08:43
sxy67230: 是加入reparameterization(再參數化)的技巧克服他,這08/03 08:43
sxy67230: 樣就不用再優化跟取樣用不同的policy。08/03 08:43
sxy67230: 另外,gumbel sofmax輸入也是離散分佈,如果用輸出也說08/03 08:50
sxy67230: 是離散會很容易誤導就是了。實際上應該是加入了gumbel d08/03 08:50
sxy67230: istribution後除以一個tau再做softmax,這樣就可以用tau08/03 08:50
sxy67230: 這個超參控制取樣的soft程度而已。08/03 08:50
sxy67230: 這樣就可以讓整體保有隨機性,而gumbel分佈就是很好描述08/03 08:59
sxy67230: 有極值的分佈,所以用再分類再取樣的效果就很合理,藉以08/03 08:59
sxy67230: 達到我們想優化的是P(zlx)這樣的空間分佈,可以參考VAE08/03 08:59
sxy67230: 的文獻實際上VAE也是這樣的技巧取樣,實際上可以去看一08/03 08:59
sxy67230: 下VI的推導,VAE算是一個很有統計學習加上隨機程序的模08/03 08:59
sxy67230: 型,整體推導流程也很優美,DDPG的作者也是借鑒這樣的08/03 08:59
sxy67230: 思路來做policy過程的取樣的。08/03 08:59
sxy67230: 然後再回到原PO sigmoid的問題上,我們如果假設輸入是服08/03 09:06
sxy67230: 從一個Bernoulli distribution的,那sigmoid跟 softmax08/03 09:06
sxy67230: 就是等價的,實際MADDPG的作者再實現上就是用這種技巧,08/03 09:06
sxy67230: 然後我看代碼其實也是再參數化的過程(sigmoid後一樣加上08/03 09:06
sxy67230: random uniform distribution),不知道有沒有回答你的08/03 09:06
sxy67230: 問題。08/03 09:06
不好意思,之前一直忘記回覆 很感謝兩位的詳細解釋! ※ 編輯: chhuang17 (223.137.144.83 臺灣), 08/10/2021 01:49:07