看板 Gossiping 關於我們 聯絡資訊
餓死抬頭,阿肥外商碼農阿肥啦! 昨天是DS開源週第一週,DS直接震撼彈開源他們的DeepSeek FlashMLA,也就是他們直接改 寫底層自己實現的方法,阿肥昨天趕緊拿他們的組件改寫自己的VLLM框架實測結果比一堆當 前別人開源的方法throughput硬是快了100多tokens/s。 這真的太屌啦!阿肥看一些FlashInfer也是用Cuda寫的但就是慢到爆,他們自己的快到不像 話。 有沒有瓜? -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 101.10.3.105 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Gossiping/M.1740441251.A.14F.html
hercheles: 說中文210.201.111.187 02/25 07:56
bluebluelan: 你要說FlashMLA跟什麼比啊 73.202.165.104 02/25 07:57
bluebluelan: MLA本來就可以大幅減小KV cache size 73.202.165.104 02/25 07:57
這樣說好了,vllm(開源推論框架)自己本身就有實作一套mla給開源DeepSeek使用,flash infer這個開源項目也有mla的實作,當前測試DeepSeek昨天釋出的Code就是比其他人在同樣 Hopper架構的晶片下速度還快100多tokens/s。
psion: 高是高在這是對資本泡沫的最大傷害173.230.166.156 02/25 08:03
※ 編輯: sxy67230 (101.10.3.105 臺灣), 02/25/2025 08:04:18
wsdykssj: 1/5,還有四個開源等著發佈,會有多驚123.252.19.17 02/25 08:05
wsdykssj: 喜呢123.252.19.17 02/25 08:05
psion: 不過我還是很好奇他們怎麼用PTX繞過去的173.230.166.156 02/25 08:05
a1223356: 還有綠共造謠是假的,結局一直被打 101.12.148.108 02/25 08:06
a1223356: 臉,現在美國公司都開始在用這套系101.12.148.108 02/25 08:06
a1223356: 統。101.12.148.108 02/25 08:06
g1254501: 你不怕被習近平知道你看什麼片尻?163.27.142.243 02/25 08:07
程式碼阿肥看了7成左右了,也沒看到有插什麼木馬,習精瓶是要看三小?
andre9: 真的強220.130.18.196 02/25 08:09
ImBBCALL: 才多一百多42.72.44.173 02/25 08:09
※ 編輯: sxy67230 (101.10.3.105 臺灣), 02/25/2025 08:10:58
yesonline: 省很多220.133.253.85 02/25 08:11
sellgd: 100多token 是比之前快幾%? 121.254.77.57 02/25 08:13
seakian: 我廢文組看不懂啦,講國語可以嗎?125.230.214.167 02/25 08:20
sellgd: 就出答案的速度 快了多少% 121.254.77.57 02/25 08:22
squelch: 屌爆了 49.218.206.217 02/25 08:24
wumins: 青鳥還卡在64 163.24.20.103 02/25 08:28
baan: 228要到了223.140.251.171 02/25 08:34
sellgd: 剛找了新聞 運算速度可達業界平均值的8倍 121.254.77.57 02/25 08:37
sellgd: 誤 噓了121.254.77.57 02/25 08:37
iKelly: 算法優化後算力提升8倍,硬體要花多少時 113.61.249.9 02/25 08:45
iKelly: 間金錢才追得上 113.61.249.9 02/25 08:45
aegiss: 青鳥都文組看不懂 218.166.94.108 02/25 08:48
ChikanDesu: 問題是算法終究是能找出來的 硬體繞不 42.79.137.117 02/25 08:50
ChikanDesu: 過物理限制 42.79.137.117 02/25 08:50
ChikanDesu: 你能找到最優的算法 然後就沒有然後了 42.79.137.117 02/25 08:50
ChikanDesu: 更何況你還開源 那算法這邊就愈來愈接 42.79.137.117 02/25 08:51
ChikanDesu: 近上限 42.79.137.117 02/25 08:51
sellgd: 就硬體需求還在 但不像以前那麼迫切而己 121.254.77.57 02/25 08:54
sellgd: 但頂尖公司還是會儘量買硬體 121.254.77.57 02/25 08:55
sellgd: 一般使用自建的成本大降 121.254.77.57 02/25 08:55
sellgd: 一般使用者121.254.77.57 02/25 08:55
create8: 幻方本業就已經有瘋狂優化底層的需求, 27.253.251.163 02/25 08:57
create8: 拿去做agi 只是剛好而已27.253.251.163 02/25 08:57
create8: 聽說他們都找比賽拿獎的去寫扣 27.253.251.163 02/25 08:59
sheng76314: 家用最低8000台幣能搞 正常用6萬多 111.255.71.98 02/25 09:00
Iperfection: 理組也是有分科的 114.136.105.39 02/25 09:11
y124421473: 上傳圖片分析超慢,GPT都10張了吧180.217.10.146 02/25 09:13
vsbrm: 最後還是要看硬體223.139.187.144 02/25 09:16
ironkyoater: 民進黨:你這個該死的中共同路人 101.10.57.126 02/25 09:19
funster: 翻譯翻譯 114.136.0.82 02/25 09:42
gayx2: 真的別想太多,你終究需要cuda的 42.77.95.19 02/25 09:58
DarkerDuck: 傻鳥:問64 throughput 多少? 1.172.115.142 02/25 09:58
jerrey: 物理低環境ds還是會完亂答 111.241.104.97 02/25 10:03
WWIII: 講中文 這邊 文組版111.249.79.146 02/25 10:21
minaei: 感覺40系列應該可以用122.117.254.140 02/25 11:26
TheBeast: DS open sourcing everything Day2108.234.22.130 02/25 11:36
TheBeast: 看了最新的optimized MOE的lib驚為天人 108.234.22.130 02/25 11:41
真的很屌,他們裡面還用到直接對Nvidia底層的記憶體直接讀取(新聞說的PTX指令就是這 段)直接讀取記憶體分配給不同的專家然後再把記憶體片段出來的直接讀取專家輸出融合, 不過我猜在不同NV架構下應該會有記憶體溢位的Bug,所以可能有針對不同晶片再優化。
losage: 乾,我聽不懂。我終於了解文盲的痛苦了223.138.156.139 02/25 13:03
※ 編輯: sxy67230 (101.10.3.105 臺灣), 02/25/2025 14:49:51