看板 Marginalman 關於我們 聯絡資訊
嚴格來說是gcp員工的個人報告 https://medium.com/google-cloud/1-million-tokens-per-second-qwen-3-5-27b-on-gke- with-b200-gpus-161da5c1b592 懶人包: 把Qwen 3.5放到96張B200平行運算 最高速度1,103,941 token/s 最終瓶頸不是模型而是分流節點忙不過來了 缺點 使用mtp所以有失真風險 KV cache太重,實驗用1500就極限了 給大家一個對比 現在大部分AI的速度不到100tps 這個是一萬倍 0.0 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 42.79.60.166 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Marginalman/M.1774573512.A.133.html
lovez04wj06: 太誇張 03/27 09:06
crimsonmoon9: 1500是指context window嗎 這麼小不能幹嘛吧 03/27 09:07
MiMi563372: 反正台灣就賣鏟子就好,演算法就讓大廠廝殺 03/27 09:08
h0103661: 對,就真的這麼小,往上加一點點都得丟掉幾個節點 03/27 09:09
diefish5566: 上下文1500 讀了個啥 03/27 09:10
windowsill: 吐了 03/27 09:10
amsmsk: 笑死 03/27 09:20
dog41125: 好猛喔,但是unity還是得自己掛插件的部分可以進步一下 03/27 09:27
dog41125: 嗎?自己掛好累== 03/27 09:27
CureSeal: 看起來是實驗室的技術 03/27 09:31