Re: [新聞] 跳過 CUDA，Deepseek 用精細的 PTX 寫成

作者s213092921 (麥靠貝)

看板Gossiping

標題Re: [新聞] 跳過 CUDA，Deepseek 用精細的 PTX 寫成

時間Fri Jan 31 14:55:07 2025

《轉載》網路上傳deepseek繞過了輝達cuda，我跟大家講一下deepseek到底做了什麼。輝達嚴格來說是一個平台性公司，並不止是硬件，硬件只不過是一個載體，它的護城河是cuda計算平台，所有高性能並行計算的祖師爺，只要你用輝達的顯卡做高性能計算，就要透過cuda計算平台。你說用AMD的顯示卡，嗨，它沒有生態呀，就像android和windows phone那麼大的差別。你買蘋果手機，不是買的硬體，而是IOS整個生態，這個生態也是用戶黏性的核心，cuda也是如此，你搞高效能運算，週邊的配套生態工具都是cuda的，你總不能自己再開發一套出來，就像你一個開發電商的會去再造個JAVA的輪子嗎？輝達打來十年的領先時間。所以各大公司都被英偉達狂宰，有苦難言。總之一句話，英偉達創造了當代高效能運算的所有標準軟體、硬體以及工俱生態，你想寫個demo用啥都行，你想上生產除了輝達別無選擇，這就是過去十年AI圈的現實，天下苦達子久矣。 Deepseek開源以後利用Meta二十分之一的成本，完成了比Meta性能好十倍的大模型，達到了與全球領先chatgpt最新版本相當的實力。 Deepseek不僅公佈了開源了程式碼，公開了測試方式與數據，還發表了全新架構的論文，這相當於一把梭了。各路人馬一開始不相信，然後開始扒deepseek，用deepseek的源代碼，測試數據，樣本等可以完全復現一次deepseekR1的訓練過程，成本就是那麼低，這讓所有人都閉嘴了。有點從不服的心態變成你是挺牛逼的意思了，接著研究細節，然後從論文中發現了deepseek改造了輝達底層的cuda生態，用比cuda更底層的ptx語言重寫了cuda的硬件邏輯，讓其中有20個流處理器硬體做了CUDA規定以外的事，彌補了閹割版顯示卡在網路通訊上的不足，相當於繞過輝達的管理平台與運算生態，直接給輝達的硬體發號施令。這是英偉達股價崩盤的核心邏輯，輝達的最大護城河讓人挖開了一個洞。輝達是個霸氣十足的太歲，如今deepseek在太歲頭上動土了。 deepseek可以這麼做，就代表別人也可以這麼做。有人問了那之前沒人能想到嗎？這個問題很好，之前一定有大神想過，但是有很多問題導致無法實現。一是在大模型剛出現的時候一片藍海，大家空間無限大，都在忙著攻城略地，速度和效率是最大優先級，沒人給你時間去搞底層語言編程這玩意，特別是美國人，花錢能解決的事不叫問題，不就是美元嘛，印就完了，錢有得是，輝達的顯卡隨便買，誰腦子有洞給自己找麻煩？中國不一樣，被美國制裁只能用閹割卡，還不能隨便買，資源極度匱乏，必須用最小的硬體壓榨出最大的性能出來，只能劍走偏鋒。所以用ptx繞過cuda這件事只會發生在中國，不可能發生在美國，邏輯不允許第二點是大語言模型的發展進入了一個全新的時期，工作效率理解力推理能力精度都有了質的飛躍，deepseek是用deepseek推理模型本身完成了海量的ptx代碼優化工作，這才使deepseek 的新版本有可能繞過CUDA完成程式指令集的巨量任務。 ptx是變種的組合語言，如果用真人寫，以現在的資料量累死也寫不完，但是AI它效率高呀，怎麼寫也不累… 輝達現在的危機是怎麼給投資人說cuda依然在未來幾十年的地位無法被撼動，但顯然他們還沒找到答案。誰能想到AI的教宗竟然被AI給革了命，這找誰說理去。我再強調一遍，國運，不在於人，而在於勢，美國的勢沒了，這才是最恐怖的。小結：Deepseek好像用自家模型完成PTX的工作量 ----- Sent from JPTT on my Vivo V2227A. -- Gossiping 綜合 ◎[八卦] 本板沒有特定立場 PTT八卦板自創立以來，一直秉持著公正、中立的立場，以一個自由且不受限制之資訊交流平台而自居，從而廣受國內外人士好評愛戴。是故，由眾多使用者推舉出任之板主，自然需承襲八卦板的一貫作風：只問對錯，不問立場。 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 1.172.23.183 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Gossiping/M.1738306511.A.51A.html

噓 bluebluelan: 這篇是AI寫出來的吧 73.202.165.104 01/31 14:57

推 pupudice: 推祖國要走10大運年了 2035一統天下222.155.102.216 01/31 14:59

推 StylishTrade: 用AI寫模型真假? 111.250.156.60 01/31 15:01

→ StylishTrade: 完蛋了天網真的要來了 111.250.156.60 01/31 15:01

→ StylishTrade: AI會自我進化了 111.250.156.60 01/31 15:01

推 StylishTrade: CUDA是人類寫的輸給AI寫的了 111.250.156.60 01/31 15:04

噓 mfhsieh2: PTX是 CUDA的一部分。一句話結案。 1.200.29.45 01/31 15:05

→ suijojo: 講解的很清楚，謝謝。 1.175.153.230 01/31 15:07

推 kingstongyu: 所以deepseek可以繞開微軟還有瀏覽器 36.233.21.49 01/31 15:09

→ sky777: 講半天結論還是繞不開輝達硬體.... 111.71.215.91 01/31 15:09

→ sky777: . 111.71.215.91 01/31 15:10

→ kingstongyu: 當初微軟開發簡體的WIN95是不是真有 36.233.21.49 01/31 15:11

→ kingstongyu: 必要?! 36.233.21.49 01/31 15:12

→ kingstongyu: 輝達的顯卡還是要插在裝有X86架構的 36.233.21.49 01/31 15:13

→ kingstongyu: 主板上,請問DEEPSEEK能繞開LINUX嗎?! 36.233.21.49 01/31 15:14

推 enunion: 推223.139.151.244 01/31 15:14

→ vn509942: CUDA C/C++ → PTX → SASS（機器碼）218.166.140.200 01/31 15:17

→ vn509942: PTX是CUDA Compilation Toolchain之環節218.166.140.200 01/31 15:20

噓 shadow0326: 蛤 36.237.160.177 01/31 15:22

→ kingstongyu: 所以deepseek能繞開IEEE的標準?! 36.233.21.49 01/31 15:23

→ tinlans: 就是 20 年前手刻 JVM byte code 同概念 114.34.189.30 01/31 15:26

→ tinlans: 能手寫 invokevirtual、fmul 那些而已 114.34.189.30 01/31 15:27

→ shadow0326: 是在供殺毀 PTX還不一樣是輝達的指令 36.237.160.177 01/31 15:28

→ shadow0326: 集 36.237.160.177 01/31 15:28

推 bitcch: 一直都是在輝達的硬體上跑只是用不同軟體 49.216.220.59 01/31 15:30

→ gueswmi: ptx指令更方便細調用控制gpu與記憶體 36.232.141.218 01/31 15:32

→ gueswmi: 繞個甚麼咚咚 36.232.141.218 01/31 15:33

→ gueswmi: 用遊戲理解捏臉原本可調1-255， 36.232.141.218 01/31 15:34

→ gueswmi: 用ptx 參數可調1-65535 36.232.141.218 01/31 15:35

推 kingstongyu: 輝達設計的指令集架構,還有編譯器 36.233.21.49 01/31 15:35

→ kingstongyu: 所以輝達不需將資訊顯示在電腦上,人 36.233.21.49 01/31 15:37

→ kingstongyu: 與人都是靠機器語言翻譯成腦電波及天 36.233.21.49 01/31 15:38

→ kingstongyu: 線在溝通的?! 36.233.21.49 01/31 15:38

→ kingstongyu: 任天堂紅白機都是靠組合語言將遊戲寫 36.233.21.49 01/31 15:40

→ kingstongyu: 入卡帶裡,PS1並未替自家設計的圖形處 36.233.21.49 01/31 15:43

→ kingstongyu: 理器命名 36.233.21.49 01/31 15:43

推 newbrain: 賣鏟子的剩台積電 101.10.108.225 01/31 15:44

→ kingstongyu: 圖形處理器就是GPU 36.233.21.49 01/31 15:44

推 PRME: cuda就是原來cpu幹的，把他給gpu平行運算， 1.200.241.90 01/31 15:52

→ PRME: 在丟回去，本質還是c 1.200.241.90 01/31 15:52

→ PRME: 因為ai用cpu太慢了 1.200.241.90 01/31 15:54

推 qxpbyd: 就原本用高階語言寫發現速度太慢就用組語 61.230.237.127 01/31 15:59

→ gueswmi: deepseek 在華爾街眼裡更少的計算更少 36.232.141.218 01/31 16:01

→ gueswmi: 的記憶體。 36.232.141.218 01/31 16:02

推 set852064: 推這篇220.135.221.137 01/31 16:13

推 neo5277: ptx這段跟非算力富翁這段是很確實的 36.239.228.170 01/31 16:13

推 goodhike: 還不是要買nv的卡而且發展更快需求只 42.70.201.1 01/31 16:19

→ goodhike: 會更多 42.70.201.1 01/31 16:19

推 ChenDotQ: 這篇會引來支語警察 49.215.96.137 01/31 16:27

推 dixsion: 推 36.224.142.98 01/31 16:42

推 newyorker54: google的tensor flow架構就沒有用cud 36.237.159.74 01/31 17:05

→ newyorker54: a輝達有崩壞嗎？也沒有。 36.237.159.74 01/31 17:05

→ newyorker54: deepseek 只是用一部份的ptx, 其他還 36.237.159.74 01/31 17:07

→ newyorker54: 是用H800跑，還是用cuda的指令集啊 36.237.159.74 01/31 17:07

噓 azaz12345: 其實就只是有沒有最佳化而已，總之NV 42.77.23.238 01/31 17:20

→ azaz12345: 對他的cuda工具還有最佳化的成長空間 42.77.23.238 01/31 17:20

→ azaz12345: ，還是掌握在NV手上啊 42.77.23.238 01/31 17:20

推 JasonKOU: 意思是可以繞開cuda conpiler的某些限 223.140.83.79 01/31 18:10

噓 Siu: 不完美同意發現一顆燈泡當十顆用的方法 180.94.164.107 01/31 19:19

→ Siu: 美國也可以十顆燈泡當一百顆用 180.94.164.107 01/31 19:20

→ Siu: 我覺得以後可能不準越獄了還不快買 180.94.164.107 01/31 19:21

推 lockeyman: 有沒有能證明這篇的專業解說 101.12.149.225 01/31 19:51

推 genaro: 推 203.204.61.126 01/31 19:52

→ wowtaiwanese: 文章很好，但是你轉載不附上來源？ 1.147.119.114 01/31 20:27

→ s213092921: FB看到的 1.172.7.34 01/31 21:36

推 previa: 這篇正解，哥2008年就在用CUDA最早期版本 114.32.198.13 02/03 07:56

→ previa: 當時還要學怎麼利用記憶體延遲交錯load 114.32.198.13 02/03 07:56

→ previa: 資料優化效率，後來這都compiler做掉 114.32.198.13 02/03 07:56

→ previa: 用AI大規模針對不同硬體改底層語言可行啊 114.32.198.13 02/03 07:57

→ previa: 未來很有機會換一個底層就用AI改底層bind 114.32.198.13 02/03 07:58

→ previa: binding跟linking的底層物件 114.32.198.13 02/03 07:58

推 yoshilin: 所以有沒有可能是NVIDIA故意讓CUDA的 223.23.88.164 04/05 18:39

→ yoshilin: 效率差，所以大家才需要買更大的算力？ 223.23.88.164 04/05 18:39

→ yoshilin: 這很美式風格。 223.23.88.164 04/05 18:39