Re: Google TurboQuant 記憶體壓縮突

作者h0103661 (單推人) 每日換婆 (1/1)

看板Marginalman

標題Re: Google TurboQuant 記憶體壓縮突

時間Thu Mar 26 14:38:54 2026

※ 引述《pchooooome (千石ユノ的胎盤)》之銘言 : Google TurboQuant 記憶體壓縮突 : Google 推出新 AI 記憶體壓縮演算法 TurboQuant,可將 AI 的「工作記憶體」壓縮高達 6 : 倍。 : 哇靠真假，這樣本地跑超大模型，的日子是不是要來了 : 挖苦挖苦這個是上下文量化先不談論這個量化損失度，畢竟這個得實測算一下理論上的記憶體使用量拿DeltaNet上下文架構的Qwen3.5為例 8k 壓縮前: 0.26, 壓縮後: 0.03 32k 壓縮前: 1.05, 壓縮後: 0.13 128k 壓縮前: 4.19, 壓縮後: 0.52 262k 壓縮前: 8.39, 壓縮後: 2.10 1M 壓縮前: 32.32, 壓縮後: 8.08 如果本體4B用4bit量化，大小是2.74GB 你只需要6.8GB的vram就能有 1M上下文智商超過gpt oss 圖像識別的無審查本地模型普通人用262k就很夠了，這樣總共需要3.8GB 能用GTX1050來跑蘋果用戶甚至可以直接裝在Air上當然一切前提是真的如google所說的沒有變笨 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 42.79.60.166 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Marginalman/M.1774507136.A.BCA.html