看板 Gossiping 關於我們 聯絡資訊
《轉載》 網路上傳deepseek繞過了輝達cuda,我跟大家講一下deepseek到底做了什麼。 輝達嚴格來說是一個平台性公司,並不止是硬件,硬件只不過是一個載體,它的護城河是cuda計算平台,所有高性能並行計算的祖師爺,只要你用輝達的顯卡做高性能計算,就要透過cuda計算平台。 你說用AMD的顯示卡,嗨,它沒有生態呀,就像android和windows phone那麼大的差別。 你買蘋果手機,不是買的硬體,而是IOS整個生態,這個生態也是用戶黏性的核心,cuda也是如此,你搞高效能運算,週邊的配套生態工具都是cuda的,你總不能自己再開發一套出來,就像你一個開發電商的會去再造個JAVA的輪子嗎? 輝達打來十年的領先時間。 所以各大公司都被英偉達狂宰,有苦難言。 總之一句話,英偉達創造了當代高效能運算的所有標準軟體、硬體以及工俱生態,你想寫個demo用啥都行,你想上生產除了輝達別無選擇,這就是過去十年AI圈的現實 ,天下苦達子久矣。 Deepseek開源以後利用Meta二十分之一的成本,完成了比Meta性能好十倍的大模型,達到了與全球領先chatgpt最新版本相當的實力。 Deepseek不僅公佈了開源了程式碼,公開了測試方式與數據,還發表了全新架構的論文,這相當於一把梭了。 各路人馬一開始不相信,然後開始扒deepseek,用deepseek的源代碼,測試數據,樣本等可以完全復現一次deepseekR1的訓練過程,成本就是那麼低,這讓所有人都閉嘴了。 有點從不服的心態變成你是挺牛逼的意思了,接著研究細節,然後從論文中發現了deepseek改造了輝達底層的cuda生態,用比cuda更底層的ptx語言重寫了cuda的硬件邏輯,讓其中有20個流處理器硬體做了CUDA規定以外的事,彌補了閹割版顯示卡在網路通訊上的不足,相當於繞過輝達的管理平台與運算生態,直接給輝達的硬體發號施令 。 這是英偉達股價崩盤的核心邏輯,輝達的最大護城河讓人挖開了一個洞。 輝達是個霸氣十足的太歲,如今deepseek在太歲頭上動土了。 deepseek可以這麼做,就代表別人也可以這麼做。有人問了那之前沒人能想到嗎? 這個問題很好,之前一定有大神想過,但是有很多問題導致無法實現。 一是在大模型剛出現的時候一片藍海,大家空間無限大,都在忙著攻城略地,速度和效率是最大優先級,沒人給你時間去搞底層語言編程這玩意,特別是美國人,花錢能解決的事不叫問題,不就是美元嘛,印就完了,錢有得是,輝達的顯卡隨便買,誰腦子有洞給自己找麻煩? 中國不一樣,被美國制裁只能用閹割卡,還不能隨便買,資源極度匱乏,必須用最小的硬體壓榨出最大的性能出來,只能劍走偏鋒。 所以用ptx繞過cuda這件事只會發生在中國,不可能發生在美國,邏輯不允許 第二點是大語言模型的發展進入了一個全新的時期,工作效率理解力推理能力精度都有了質的飛躍,deepseek是用deepseek推理模型本身完成了海量的ptx代碼優化工作,這才使deepseek 的新版本有可能繞過CUDA完成程式指令集的巨量任務。 ptx是變種的組合語言,如果用真人寫,以現在的資料量累死也寫不完,但是AI它效率高呀,怎麼寫也不累… 輝達現在的危機是怎麼給投資人說cuda依然在未來幾十年的地位無法被撼動,但顯然他們還沒找到答案。 誰能想到AI的教宗竟然被AI給革了命,這找誰說理去。 我再強調一遍,國運,不在於人,而在於勢,美國的勢沒了,這才是最恐怖的。 小結:Deepseek好像用自家模型完成PTX的工作量 ----- Sent from JPTT on my Vivo V2227A. -- Gossiping 綜合 ◎[八卦] 本板沒有特定立場 PTT八卦板自創立以來,一直秉持著公正、中立的立場, 以一個自由且不受限制之資訊交流平台而自居, 從而廣受國內外人士好評愛戴。 是故,由眾多使用者推舉出任之板主, 自然需承襲八卦板的一貫作風:只問對錯,不問立場。 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 1.172.23.183 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Gossiping/M.1738306511.A.51A.html
bluebluelan: 這篇是AI寫出來的吧 73.202.165.104 01/31 14:57
pupudice: 推 祖國要走10大運年了 2035一統天下222.155.102.216 01/31 14:59
StylishTrade: 用AI寫模型 真假? 111.250.156.60 01/31 15:01
StylishTrade: 完蛋了 天網真的要來了 111.250.156.60 01/31 15:01
StylishTrade: AI會自我進化了 111.250.156.60 01/31 15:01
StylishTrade: CUDA是人類寫的 輸給AI寫的了 111.250.156.60 01/31 15:04
mfhsieh2: PTX是 CUDA的一部分。一句話結案。 1.200.29.45 01/31 15:05
suijojo: 講解的很清楚,謝謝。 1.175.153.230 01/31 15:07
kingstongyu: 所以deepseek可以繞開微軟還有瀏覽器 36.233.21.49 01/31 15:09
sky777: 講半天結論還是繞不開輝達硬體.... 111.71.215.91 01/31 15:09
sky777: . 111.71.215.91 01/31 15:10
kingstongyu: 當初微軟開發簡體的WIN95是不是真有 36.233.21.49 01/31 15:11
kingstongyu: 必要?! 36.233.21.49 01/31 15:12
kingstongyu: 輝達的顯卡還是要插在裝有X86架構的 36.233.21.49 01/31 15:13
kingstongyu: 主板上,請問DEEPSEEK能繞開LINUX嗎?! 36.233.21.49 01/31 15:14
enunion: 推223.139.151.244 01/31 15:14
vn509942: CUDA C/C++ → PTX → SASS(機器碼)218.166.140.200 01/31 15:17
vn509942: PTX是CUDA Compilation Toolchain之環節218.166.140.200 01/31 15:20
shadow0326: 蛤 36.237.160.177 01/31 15:22
kingstongyu: 所以deepseek能繞開IEEE的標準?! 36.233.21.49 01/31 15:23
tinlans: 就是 20 年前手刻 JVM byte code 同概念 114.34.189.30 01/31 15:26
tinlans: 能手寫 invokevirtual、fmul 那些而已 114.34.189.30 01/31 15:27
shadow0326: 是在供殺毀 PTX還不一樣是輝達的指令 36.237.160.177 01/31 15:28
shadow0326: 集 36.237.160.177 01/31 15:28
bitcch: 一直都是在輝達的硬體上跑 只是用不同軟體 49.216.220.59 01/31 15:30
gueswmi: ptx指令更方便 細調用控制gpu與記憶體 36.232.141.218 01/31 15:32
gueswmi: 繞個甚麼咚咚 36.232.141.218 01/31 15:33
gueswmi: 用遊戲理解 捏臉原本可調1-255, 36.232.141.218 01/31 15:34
gueswmi: 用ptx 參數可調1-65535 36.232.141.218 01/31 15:35
kingstongyu: 輝達設計的指令集架構,還有編譯器 36.233.21.49 01/31 15:35
kingstongyu: 所以輝達不需將資訊顯示在電腦上,人 36.233.21.49 01/31 15:37
kingstongyu: 與人都是靠機器語言翻譯成腦電波及天 36.233.21.49 01/31 15:38
kingstongyu: 線在溝通的?! 36.233.21.49 01/31 15:38
kingstongyu: 任天堂紅白機都是靠組合語言將遊戲寫 36.233.21.49 01/31 15:40
kingstongyu: 入卡帶裡,PS1並未替自家設計的圖形處 36.233.21.49 01/31 15:43
kingstongyu: 理器命名 36.233.21.49 01/31 15:43
newbrain: 賣鏟子的剩台積電 101.10.108.225 01/31 15:44
kingstongyu: 圖形處理器就是GPU 36.233.21.49 01/31 15:44
PRME: cuda就是原來cpu幹的,把他給gpu平行運算, 1.200.241.90 01/31 15:52
PRME: 在丟回去,本質還是c 1.200.241.90 01/31 15:52
PRME: 因為ai用cpu太慢了 1.200.241.90 01/31 15:54
qxpbyd: 就原本用高階語言寫 發現速度太慢就用組語 61.230.237.127 01/31 15:59
gueswmi: deepseek 在華爾街眼裡 更少的計算 更少 36.232.141.218 01/31 16:01
gueswmi: 的記憶體。 36.232.141.218 01/31 16:02
set852064: 推這篇220.135.221.137 01/31 16:13
neo5277: ptx這段跟非算力富翁這段是很確實的 36.239.228.170 01/31 16:13
goodhike: 還不是要買nv的卡 而且發展更快 需求只 42.70.201.1 01/31 16:19
goodhike: 會更多 42.70.201.1 01/31 16:19
ChenDotQ: 這篇會引來支語警察 49.215.96.137 01/31 16:27
dixsion: 推 36.224.142.98 01/31 16:42
newyorker54: google的tensor flow架構就沒有用cud 36.237.159.74 01/31 17:05
newyorker54: a輝達有崩壞嗎?也沒有。 36.237.159.74 01/31 17:05
newyorker54: deepseek 只是用一部份的ptx, 其他還 36.237.159.74 01/31 17:07
newyorker54: 是用H800跑,還是用cuda的指令集啊 36.237.159.74 01/31 17:07
azaz12345: 其實就只是有沒有最佳化而已,總之NV 42.77.23.238 01/31 17:20
azaz12345: 對他的cuda工具還有最佳化的成長空間 42.77.23.238 01/31 17:20
azaz12345: ,還是掌握在NV手上啊 42.77.23.238 01/31 17:20
JasonKOU: 意思是可以繞開cuda conpiler的某些限 223.140.83.79 01/31 18:10
Siu: 不完美同意 發現一顆燈泡當十顆用的方法 180.94.164.107 01/31 19:19
Siu: 美國也可以十顆燈泡當一百顆用 180.94.164.107 01/31 19:20
Siu: 我覺得以後可能不準越獄了 還不快買 180.94.164.107 01/31 19:21
lockeyman: 有沒有能證明這篇的專業解說 101.12.149.225 01/31 19:51
genaro: 推 203.204.61.126 01/31 19:52
wowtaiwanese: 文章很好,但是你轉載不附上來源? 1.147.119.114 01/31 20:27
s213092921: FB看到的 1.172.7.34 01/31 21:36
previa: 這篇正解,哥2008年就在用CUDA最早期版本 114.32.198.13 02/03 07:56
previa: 當時還要學怎麼利用記憶體延遲交錯load 114.32.198.13 02/03 07:56
previa: 資料優化效率,後來這都compiler做掉 114.32.198.13 02/03 07:56
previa: 用AI大規模針對不同硬體改底層語言可行啊 114.32.198.13 02/03 07:57
previa: 未來很有機會換一個底層就用AI改底層bind 114.32.198.13 02/03 07:58
previa: binding跟linking的底層物件 114.32.198.13 02/03 07:58
yoshilin: 所以有沒有可能是NVIDIA故意讓CUDA的 223.23.88.164 04/05 18:39
yoshilin: 效率差,所以大家才需要買更大的算力? 223.23.88.164 04/05 18:39
yoshilin: 這很美式風格。 223.23.88.164 04/05 18:39