看板 Marginalman 關於我們 聯絡資訊
※ 引述《pchooooome (千石ユノ的胎盤)》之銘言 : Google TurboQuant 記憶體壓縮突 : Google 推出新 AI 記憶體壓縮演算法 TurboQuant,可將 AI 的「工作記 憶體」壓縮高達 6 : 倍。 : 哇靠真假,這樣本地跑超大模型,的日子是不是要來了 : 挖苦挖苦 這個是上下文量化 先不談論這個量化損失度,畢竟這個得實測 算一下理論上的記憶體使用量 拿DeltaNet上下文架構的Qwen3.5為例 8k 壓縮前: 0.26, 壓縮後: 0.03 32k 壓縮前: 1.05, 壓縮後: 0.13 128k 壓縮前: 4.19, 壓縮後: 0.52 262k 壓縮前: 8.39, 壓縮後: 2.10 1M 壓縮前: 32.32, 壓縮後: 8.08 如果本體4B用4bit量化,大小是2.74GB 你只需要6.8GB的vram就能有 1M上下文 智商超過gpt oss 圖像識別 的無審查本地模型 普通人用262k就很夠了,這樣總共需要3.8GB 能用GTX1050來跑 蘋果用戶甚至可以直接裝在Air上 當然一切前提是真的如google所說的沒有變笨 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 42.79.60.166 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Marginalman/M.1774507136.A.BCA.html