最近很紅的文章
瞄幾眼想說什麼傻逼玩意
何愷明的東西你也想動手腳
加注意力複雜度直接炸掉
看完後確實是好文章
實驗紮實 論點清晰 full attention residual版本的操作也不複雜
而且時間複雜度確實也不是大問題
block就複雜些
但我不像這篇文章要用在LLM
block是為了LLM的工程實現的搞的東西
cv用full應該也沒太大負擔
下午搞了full版 希望明天有GPU 沒有我就
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.136.172.150 (臺灣)
※ 文章網址: https://www.ptt.cc/bbs/Marginalman/M.1774261319.A.D85.html
※ 編輯: sustainer123 (114.136.172.150 臺灣), 03/23/2026 18:26:53