attention residual

作者sustainer123 (溫水佳樹的兄長大人)

看板Marginalman

標題attention residual

時間Mon Mar 23 18:21:57 2026

最近很紅的文章瞄幾眼想說什麼傻逼玩意何愷明的東西你也想動手腳加注意力複雜度直接炸掉看完後確實是好文章實驗紮實論點清晰 full attention residual版本的操作也不複雜而且時間複雜度確實也不是大問題 block就複雜些但我不像這篇文章要用在LLM block是為了LLM的工程實現的搞的東西 cv用full應該也沒太大負擔下午搞了full版希望明天有GPU 沒有我就 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.136.172.150 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Marginalman/M.1774261319.A.D85.html ※ 編輯: sustainer123 (114.136.172.150 臺灣), 03/23/2026 18:26:53