→ Wardyal: 機器學習豚 10/10 15:14
※ 引述《ken890126 (GDK)》之銘言:
: 好震撼,真的是短注意力時代,在x上看到那種短視頻模式的黃片軟件,完全就是看
: 莫名其妙的兩坨肉動來動去動個不到2分鐘就可以刷下一部片子了
剛好最近在看
假如你要把注意力機制切割到平行運算的GPU上的話
可以把每個Q各自分配到一個GPU上
然後互相把K V傳球傳來傳去
然後每個GPU最後自然就能疊加算出輸出了
--
https://i.imgur.com/3s20riY.gif
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 212.102.51.118 (日本)
※ 文章網址: https://www.ptt.cc/bbs/Marginalman/M.1760080433.A.B48.html