看板 Marginalman 關於我們 聯絡資訊
最近很紅的文章 瞄幾眼想說什麼傻逼玩意 何愷明的東西你也想動手腳 加注意力複雜度直接炸掉 看完後確實是好文章 實驗紮實 論點清晰 full attention residual版本的操作也不複雜 而且時間複雜度確實也不是大問題 block就複雜些 但我不像這篇文章要用在LLM block是為了LLM的工程實現的搞的東西 cv用full應該也沒太大負擔 下午搞了full版 希望明天有GPU 沒有我就 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.136.172.150 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Marginalman/M.1774261319.A.D85.html ※ 編輯: sustainer123 (114.136.172.150 臺灣), 03/23/2026 18:26:53