作者h0103661 (單推人) 每日換婆 (1/1)
看板Marginalman
標題[閒聊] Google 發表 110萬 token/s 的AI架構
時間Fri Mar 27 09:05:09 2026
嚴格來說是gcp員工的個人報告
https://medium.com/google-cloud/1-million-tokens-per-second-qwen-3-5-27b-on-gke-
with-b200-gpus-161da5c1b592
懶人包:
把Qwen 3.5放到96張B200平行運算
最高速度1,103,941 token/s
最終瓶頸不是模型而是分流節點忙不過來了
缺點
使用mtp所以有失真風險
KV cache太重,實驗用1500就極限了
給大家一個對比
現在大部分AI的速度不到100tps
這個是一萬倍
0.0
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 42.79.60.166 (臺灣)
※ 文章網址: https://www.ptt.cc/bbs/Marginalman/M.1774573512.A.133.html
推 lovez04wj06: 太誇張 03/27 09:06
→ crimsonmoon9: 1500是指context window嗎 這麼小不能幹嘛吧 03/27 09:07
推 MiMi563372: 反正台灣就賣鏟子就好,演算法就讓大廠廝殺 03/27 09:08
→ h0103661: 對,就真的這麼小,往上加一點點都得丟掉幾個節點 03/27 09:09
推 diefish5566: 上下文1500 讀了個啥 03/27 09:10
推 windowsill: 吐了 03/27 09:10
推 amsmsk: 笑死 03/27 09:20
推 dog41125: 好猛喔,但是unity還是得自己掛插件的部分可以進步一下 03/27 09:27
→ dog41125: 嗎?自己掛好累== 03/27 09:27
推 CureSeal: 看起來是實驗室的技術 03/27 09:31