[閒聊] Google 發表 110萬 token/s 的AI架構

作者h0103661 (單推人) 每日換婆 (1/1)

看板Marginalman

標題[閒聊] Google 發表 110萬 token/s 的AI架構

時間Fri Mar 27 09:05:09 2026

嚴格來說是gcp員工的個人報告 https://medium.com/google-cloud/1-million-tokens-per-second-qwen-3-5-27b-on-gke- with-b200-gpus-161da5c1b592 懶人包：把Qwen 3.5放到96張B200平行運算最高速度1,103,941 token/s 最終瓶頸不是模型而是分流節點忙不過來了缺點使用mtp所以有失真風險 KV cache太重，實驗用1500就極限了給大家一個對比現在大部分AI的速度不到100tps 這個是一萬倍 0.0 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 42.79.60.166 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Marginalman/M.1774573512.A.133.html

推 lovez04wj06: 太誇張 03/27 09:06

→ crimsonmoon9: 1500是指context window嗎這麼小不能幹嘛吧 03/27 09:07

推 MiMi563372: 反正台灣就賣鏟子就好,演算法就讓大廠廝殺 03/27 09:08

→ h0103661: 對，就真的這麼小，往上加一點點都得丟掉幾個節點 03/27 09:09

推 diefish5566: 上下文1500 讀了個啥 03/27 09:10

推 windowsill: 吐了 03/27 09:10

推 amsmsk: 笑死 03/27 09:20

推 dog41125: 好猛喔，但是unity還是得自己掛插件的部分可以進步一下 03/27 09:27

→ dog41125: 嗎？自己掛好累== 03/27 09:27

推 CureSeal: 看起來是實驗室的技術 03/27 09:31