看板 Gossiping 關於我們 聯絡資訊
阿肥外商碼農阿肥啦! 昨天是DeepSeek開源週的第三天,因為真的屌炸了還想在發一篇。昨天DS直接發佈了他們把 H800操到極限的核心-DeepGemm。 給文組科普的就是當前不管什麼大語言模型本質的數學核心就是線性代數最基礎的通用矩陣 乘法GEMM(General Matrix Multiplication),而過往很多驗證發現隨著模型參數擴大對於 矩陣中浮點數計算是可以壓縮或省一點起來的,省起來對於大語言模型的性能損失並不會差 異太大。 然後DS這次發佈的技術報告有說他們是混合了Hopper的TMA(Tensor memory Accelerator, 白話就是傳統做矩陣計算的時候要把thread中的計存寫出到global memory 然後再最後讀回 去組合,但TMA直接寫在計算核心裡面就不用一直讓核心去外部訪問)架構,然後再進行分切 片跟分塊的演算法優化。 阿肥自己昨天傍晚到家就興奮實測自己寫的混TMA的FP8 Gemm用最樸素的方式實作結果分128 個區塊頂多也才350TFlops跟大部分的技術報告相差不大,但用DeepGEMM直接硬尻最快可以 衝到700多TFlops,讓阿肥大為震撼。 目前還在細讀他們的Gemm到底是怎麼實作的。 DeepSeek整個太Sick了。 這才是我們技術人要的真正的OpenAI,真正完全的開誠佈公促進人工智慧的全人類發展,未 來AGI指日可待。 以上 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 49.216.164.250 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Gossiping/M.1740616496.A.2AD.html
mopepe5566: 祖國愈來愈強,台灣快統一了49.216.130.11 02/27 08:36
mopepe5566: 美中俄,一起分割台灣 49.216.130.11 02/27 08:36
k1k1832002: 雖然硬體閹割效能,但透過算法創新補上 36.237.167.227 02/27 08:37
k1k1832002: 一大塊 36.237.167.227 02/27 08:37
todo635387: 只有H架構GPU可以用?220.134.129.189 02/27 08:38
對,當前只支援H系列,家用顯卡沒TMA架構可能要再等等。
charleschang: 略懂49.216.47.184 02/27 08:38
peterwu4: 為匪宣傳不可取,有想過塔綠班的心情嗎? 61.222.220.37 02/27 08:39
ErosAmour: 人家看不懂還是會噓你舔共,又說這些223.138.170.54 02/27 08:40
ErosAmour: 東西查不到文革和8964,而且還危害呆223.138.170.54 02/27 08:40
ErosAmour: 完國安,早該禁用啦。223.138.170.54 02/27 08:40
ayianayian: 真的很屌,讓我不禁在想openAI的人到42.73.182.58 02/27 08:43
ayianayian: 底在幹嘛42.73.182.58 02/27 08:43
lifeowner: 飯乞匪又要哭了223.137.7.64 02/27 08:45
bigwun73: 民禁黨:我看不到我看不到,一切都是幻 223.139.15.120 02/27 08:45
bigwun73: 覺223.139.15.120 02/27 08:45
iLeyaSin365: 我雖然不懂你在興奮什麼111.82.124.117 02/27 08:45
iLeyaSin365: 不過我可以拿去問人工智能看看111.82.124.117 02/27 08:46
quid1121: 我以為是開源底層繞過cuda 直接組合語言36.239.115.24 02/27 08:46
quid1121: 硬幹 結果還在python import 還吹?36.239.115.24 02/27 08:46
呃,底層實作都是用Cuda混合PTX(GPU組語)指令寫的,Cuda是方便有些函數不用自己造輪 子。人家也都說自己是用NV晶片了,只是美國不提供高階H100那人家用次等的晶片實作發現 晶片的計算能力還沒到極限結果弄出來比高階晶片還快。熟底層的一堆都馬用Cuda寫,Pyth on只是膠水語言給你們這些只會import的人用的。
iLeyaSin365: 所以deepseek 團隊,做了什麼了不起111.82.124.117 02/27 08:46
bigwun73: 封建社會百姓,不需要文化,笨一點,資223.139.15.120 02/27 08:46
iLeyaSin365: 的事嗎111.82.124.117 02/27 08:46
bigwun73: 訊壅塞一點,比較好管理,傻逼 223.139.15.120 02/27 08:46
yesonline: 壓榨式函式庫 NVIDIA不喜歡這個220.133.253.85 02/27 08:48
strikecbu: 我看以後OpenAI 變年度獎項好了,這樣101.12.20.208 02/27 08:49
strikecbu: 對整個人類群體都好 101.12.20.208 02/27 08:49
quid1121: 我認為要吹就拿點硬功夫出來 別以為八卦36.239.115.24 02/27 08:52
quid1121: 有錢就可以帶風向~36.239.115.24 02/27 08:52
沒帶風向,只是覺得你蠻可憐的,你不是工程師根本看不懂人家的Code厲害在哪裡吧?本來 好東西就值得稱讚,哪天OpenAI全開源我也會發一篇。
Paulsic: 有競爭是好事相互漏氣求進步 223.23.46.15 02/27 08:52
huzii01: 喔喔,屌爆了,人民要吃上飯了! 1.173.6.108 02/27 08:53
※ 編輯: sxy67230 (49.216.164.250 臺灣), 02/27/2025 08:56:54 ※ 編輯: sxy67230 (49.216.164.250 臺灣), 02/27/2025 09:00:06
iLeyaSin365: 其實說真的要帶風向,沒人懂的東西 111.82.124.117 02/27 09:02
iLeyaSin365: 也帶不起來 111.82.124.117 02/27 09:02
volkov: 青鳥不爽了 118.167.161.64 02/27 09:05
quid1121: 急了?36.239.115.24 02/27 09:07
quid1121: 快把底層源碼開源出來讓我們笑一笑啊~ 36.239.115.24 02/27 09:07
人家早就開源了,連Google跟GitHub都不會用還敢噓,笑你 https://github.com/deepseek-ai/DeepGEMM/tree/main
retrud: 我使用經驗比chatgpt 更人性化 223.137.58.59 02/27 09:08
※ 編輯: sxy67230 (49.216.164.250 臺灣), 02/27/2025 09:10:25
quid1121: 怎不翻年前怎麼吹 直接ptx硬幹底層 繞 36.239.115.24 02/27 09:11
quid1121: 過cuda 今天怎變成混合ptx cuda? 笑死~ 36.239.115.24 02/27 09:11
現今有哪個工程師是完全自己從0開始造輪子的,人家技術報告也寫了在主要MoE通訊跟GEMM FP8的計算上他們才是用PTX寫的,可憐文盲是連英文閱讀都有問題? ※ 編輯: sxy67230 (49.216.164.250 臺灣), 02/27/2025 09:14:38
followmytype: 不明覺厲124.218.235.30 02/27 09:26
IDfor2010: 塔綠說是假的,你最好注意一下150.116.221.194 02/27 09:46
chita0258: 輪子引擎都是別人家的 改個方向盤罷了114.136.191.253 02/27 09:50
更正確的說法是人家把引擎拆了發現引擎的運作方式根本還沒到運作極限,所以改造了引擎 的運作方式後達到賽車引擎的效果。這個人家技術報告重頭到尾都是這樣說的,不過很多人 就文盲看不懂英文。不過即便是改造引擎也是屌炸了。當前美國很多矽谷巨頭都已經忘了最 原始的車庫精神了,至於台灣就不用想了連這種精神都沒有過。
orange0319: 一堆網軍進攻囉,只會掩耳盜鈴。從來114.136.214.123 02/27 09:51
orange0319: 不正視事情本質,難怪民進黨貪污只要114.136.214.123 02/27 09:51
orange0319: 喊抗中保台就能被原諒114.136.214.123 02/27 09:51
duriamon: 這幾天的開源真的很猛,美國人財大氣粗223.137.202.71 02/27 09:56
duriamon: ,但浪費錢的燒法我覺得在燒完前也不會223.137.202.71 02/27 09:56
duriamon: 到AGI,呵呵!223.137.202.71 02/27 09:56
※ 編輯: sxy67230 (49.216.164.250 臺灣), 02/27/2025 10:09:46
quid1121: 還真以為人家都看不懂? 笑死~36.239.115.24 02/27 10:11
quid1121: 拜託把底層PTX原碼開源 讓我們笑一笑~36.239.115.24 02/27 10:11
quid1121: 年前不是吹繞過cuda? 林北就是要看他是 36.239.115.24 02/27 10:15
quid1121: 怎麼繞過cuda 自己用ptx硬幹~ 這才是硬 36.239.115.24 02/27 10:15
quid1121: 功夫~ 只會狂吹 ptx原碼到底生出來了沒? 36.239.115.24 02/27 10:15
都在GitHub裡面人家都幫你包起來了,你該不會看不懂吧?有夠可憐一直跳針耶,懶得回你 了。 ※ 編輯: sxy67230 (49.216.164.250 臺灣), 02/27/2025 10:17:55
whywhywhy: 雖然我不懂 但開源給推 可以刺激openAI 27.247.34.181 02/27 10:20
whywhywhy: 發展也給推deepsick實際應用效果不錯 27.247.34.181 02/27 10:20
whywhywhy: 對AI發展也不是什麼壞事 真的不需要看 27.247.34.181 02/27 10:20
whywhywhy: 到中國就噓文27.247.34.181 02/27 10:20
quid1121: 嗯~ 很會躱喔~ 被挫到痛點了厚~ XDD36.239.115.24 02/27 10:21
quid1121: 快換一個有硬功夫的出來吹啦~ 36.239.115.24 02/27 10:22
我只是覺得跟文盲講話很痛苦而已,GitHub給你了也不會自己去看,幹嘛浪費時間跟你這種 人多講話。你連wgmma是什麼都不知道了,難怪給你GitHub也看不懂。更何況你根本就不是 想來討論的,幹嘛浪費口舌難不成要一行一行Code講給你聽?要這樣解釋給你聽那你跟文盲 有什麼不同?真的看懂麻煩你把討論品質提高,說出你閱讀完Code的看法吧,可憐蟲
whywhywhy: 但對民進黨跟青鳥來說實際上怎樣根本不27.247.34.181 02/27 10:23
whywhywhy: 重要 反正數發部的AI>>>>>>>>>>deepsee27.247.34.181 02/27 10:23
whywhywhy: k就是了 然後我上面不小心打成deepsick27.247.34.181 02/27 10:23
whywhywhy: 了XD27.247.34.181 02/27 10:23
ms0529876: 推討論61.228.77.227 02/27 10:29
※ 編輯: sxy67230 (49.216.164.250 臺灣), 02/27/2025 10:29:28 ※ 編輯: sxy67230 (49.216.164.250 臺灣), 02/27/2025 10:32:50
quid1121: 林北在寫cuda的時候 你還在媽媽10元來~36.239.115.24 02/27 10:35
quid1121: 還嘴人看不懂~ 笑死人了~ 36.239.115.24 02/27 10:35
喔,是喔。那你不會自己去寫一個,我自己用cutlass改的實驗才350TFlops,人家可以做到 700TFlops,那對你來說超過一定不難吧?套一句Linux Torvalds的話,多說無益,show me the code. 我等你開源 喔,我補充一下,你一開始還說人家是import Python,我都給你GitHub裡面人家明明就有P TX指令在.cuh裡面,你都說你很熟Cuda結果還看不懂鬼扯人家import Python。很熟CUDA? 我笑了 ※ 編輯: sxy67230 (49.216.164.250 臺灣), 02/27/2025 10:47:10 ※ 編輯: sxy67230 (49.216.164.250 臺灣), 02/27/2025 10:54:27
HowLeeHi: 不知道今天會發什麼1.160.66.14 02/27 11:09
我看他們GitHub issue有說在討論可能會放出fp8 wgrad back propagation 的部分,有點 期待週末又有東西可以讀讓自己進步了。 ※ 編輯: sxy67230 (49.216.164.250 臺灣), 02/27/2025 11:15:03
Bayern5566: 繞過cuda 實現中華民族偉大復興 60.251.43.19 02/27 11:48