推 sxy67230: Gumbel-softmax主要作用在取樣的時候,往往我們在取樣 07/31 10:38
→ sxy67230: 的時候都是用random choice或是加入機率分佈因素再取arg 07/31 10:38
→ sxy67230: max,但是如果你要在你整個網路訓練過程中加入就會導致 07/31 10:38
→ sxy67230: 你的反向傳播失效,因為這兩個步驟是不可微的,這樣你就 07/31 10:38
→ sxy67230: 沒辦法傳導你的梯度,所以用gumbel softmx再參數化去逼 07/31 10:38
→ sxy67230: 近random choice的取樣效果同時讓整個過程可微。 07/31 10:38
→ johnnyjana: 不知道樓上在講什麼 08/01 14:00
→ johnnyjana: gumbel softmax就只是個trick 把原本的probablity 08/01 14:04
→ johnnyjana: output 除上很小的"tau" 過“可微”的softmax之後機 08/01 14:04
→ johnnyjana: 率分佈很像是discrete的 08/01 14:04
了解了,不過我有看到一篇文獻是將binary的action space過sigmoid
該篇文獻最後一層通過y=sigmoid(1000x),再output出來
一樣都是逼近成類似discrete的機率分布
想請問這樣的做法跟gumbel-softmax的差異在哪裡呢?
或者說 有一定要利用gumbel-softmax的理由不可嗎?
※ 編輯: chhuang17 (140.112.10.31 臺灣), 08/01/2021 15:13:03
推 johnnyjana: 這個深度學習的問題沒有正確答案 只能都試試看最後在 08/01 16:03
→ johnnyjana: paper唬爛一個答案 唯一比較客觀分析還是看function 08/01 16:03
→ johnnyjana: 斜率 比較兩者在你的dataset剃度的問題 08/01 16:03
推 sxy67230: 確實有一些前提沒有補充到,想說讓原PO去查文獻大概就 08/03 08:42
→ sxy67230: 明白了。首先,MADDPG整體架構還是一個DDPG,只是擴展08/03 08:42
→ sxy67230: 成考量multi-agent的狀況。然後考量傳統DPG採用待優化po08/03 08:42
→ sxy67230: licy跟取樣policy不同以解決exploration的問題,DDPG則08/03 08:43
→ sxy67230: 是加入reparameterization(再參數化)的技巧克服他,這08/03 08:43
→ sxy67230: 樣就不用再優化跟取樣用不同的policy。08/03 08:43
推 sxy67230: 另外,gumbel sofmax輸入也是離散分佈,如果用輸出也說08/03 08:50
→ sxy67230: 是離散會很容易誤導就是了。實際上應該是加入了gumbel d08/03 08:50
→ sxy67230: istribution後除以一個tau再做softmax,這樣就可以用tau08/03 08:50
→ sxy67230: 這個超參控制取樣的soft程度而已。08/03 08:50
推 sxy67230: 這樣就可以讓整體保有隨機性,而gumbel分佈就是很好描述08/03 08:59
→ sxy67230: 有極值的分佈,所以用再分類再取樣的效果就很合理,藉以08/03 08:59
→ sxy67230: 達到我們想優化的是P(zlx)這樣的空間分佈,可以參考VAE08/03 08:59
→ sxy67230: 的文獻實際上VAE也是這樣的技巧取樣,實際上可以去看一08/03 08:59
→ sxy67230: 下VI的推導,VAE算是一個很有統計學習加上隨機程序的模08/03 08:59
→ sxy67230: 型,整體推導流程也很優美,DDPG的作者也是借鑒這樣的08/03 08:59
→ sxy67230: 思路來做policy過程的取樣的。08/03 08:59
推 sxy67230: 然後再回到原PO sigmoid的問題上,我們如果假設輸入是服08/03 09:06
→ sxy67230: 從一個Bernoulli distribution的,那sigmoid跟 softmax08/03 09:06
→ sxy67230: 就是等價的,實際MADDPG的作者再實現上就是用這種技巧,08/03 09:06
→ sxy67230: 然後我看代碼其實也是再參數化的過程(sigmoid後一樣加上08/03 09:06
→ sxy67230: random uniform distribution),不知道有沒有回答你的08/03 09:06
→ sxy67230: 問題。08/03 09:06
不好意思,之前一直忘記回覆
很感謝兩位的詳細解釋!
※ 編輯: chhuang17 (223.137.144.83 臺灣), 08/10/2021 01:49:07