看板 Gossiping 關於我們 聯絡資訊
跳過 CUDA,Deepseek 用精細的 PTX 寫成 科技新報 作者 Alan Chen | 發布日期 2025 年 01 月 29 日 18:54 在 Deepseek 掀起全球科技圈一陣波瀾後,各界都試圖從深度求索公布的文件中,找出他 們如何成功的方式,韓國大宇未來資產的分析報告指出,Deepseek 並未使用 Nvidia 的 CUDA 編寫,而是透過大量精密調整的併行線程執行代碼,達成採用較低規格的硬體產出 高效能 AI 模型表現。 OpenAI 的 ChatGPT 引爆全球人工智慧熱潮,除了 Nvidia 顯示晶片的算力效能之外, CUDA 架構也是重要腳色之一,因此目前美國各大科技巨頭開發的 AI 產品,大多是以 CUDA 架構為基礎進行開發。 但是在 Deepseek 橫空出世後,號稱使用效能較低的 H800 晶片卻能產出與 ChatGPT 相 等效能,使各界對於深度求索如何辦到感到好奇,韓國大宇未來資產在研究該公司文件後 指出,Deepseek 並未像其他 AI 模型一樣採用 CUDA 架構,而是透過併行線程執行代碼 (Parallel Thread Excution, PTX)構成。 PTX 是 Nvidia 為 GPU 產品開發的一種中間語言(Intermediate Language),是 CUDA 這類高階 GPU 程式語言和低階機器碼之間的橋樑,而 PTX 作為一種 Close-to-metal 的 指令集架構,比起 CUDA 來說可讓工程師進行更多,更細緻的最佳化調整。 不過透過 PTX 雖然可以進行更多專門的最佳化調整,但缺點是很難維持穩定,需要人力 大量除錯,因此也顯示出 Deepseek 工程師在設計過程中的功力。 而 Deepseek 的出世,也打破了矽谷巨頭在人工智慧競爭中的軍備競賽局面,AI 開發或 許不一定非得追求最強晶片和龐大晶片數量,透過精細的程式設計也能讓低規設備跑出高 效結果,這可能也是前日美國科技股市震盪的主要原因。 https://bit.ly/3PTtnDF 備註: 繞過CUDA還得問行業權威YO叔 -- 如果你能讓最低等的白人相信他比最高等的有色人種更好,他就不會注意到你在 扒他的口袋。該死 ! 給他一個他可以瞧不起的人,他就會自動把口袋翻給你 ! If you can convince the lowest white man he's better than the best colored man, he won't notice you're picking his pocket. Hell, give him somebody to look down on, and he'll empty his pockets for you. ---美國第36任總統詹森 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 123.192.220.133 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Gossiping/M.1738219915.A.CDA.html
ianlin1216: 青鳥氣瘋 223.137.238.73 01/30 14:52
shokotan: 中國牛逼 先進架構111.250.152.121 01/30 14:53
tank44444: 這種鬼話都掰的出來? 122.116.39.42 01/30 14:54
a94037501: 錢夠多自己寫比較省 111.71.85.252 01/30 14:54
kuninaka: 怎麼可能完全沒用CUDA來寫。 49.216.42.25 01/30 14:54
E6300: 講的好像不是用NV產品 1.172.247.55 01/30 14:54
kuninaka: 還在亂吹,全部都用組語喔 49.216.42.25 01/30 14:55
mamorui: 講得像跑DS模型不用顯卡? 呵呵 180.176.65.112 01/30 14:55
cs09312: 有種用A卡跑啊 27.247.164.138 01/30 14:55
linbacon: yo叔領先20年 110.28.106.23 01/30 14:56
firose: 小鳥炸毛了 114.25.142.91 01/30 14:57
asiaking5566: 青鳥:反正是抄的 123.194.21.61 01/30 14:59
yoshilin: 至少人家有研究才發看法 台灣只會研究64 101.139.56.91 01/30 15:00
ctw01: 這也不是什麼新東西 223.137.203.11 01/30 15:01
james732: PTX看起來怎麼跟組合語言差不多223.138.114.146 01/30 15:01
arnold3: github指南說用華為的卡也能跑 182.234.98.55 01/30 15:01
reaturn: 對岸人工比較便宜,硬幹上去的意思嗎 218.166.185.61 01/30 15:01
TBOC: 真繞過就代表也不用你N家晶片123.192.220.133 01/30 15:02
TBOC: 不然股價再跌什麼123.192.220.133 01/30 15:03
imreader: https://imgur.com/NPS7bf3 1.172.240.57 01/30 15:04
imreader: 人家用高階語言來刻 LLM,對岸用組合 1.172.240.57 01/30 15:05
imreader: 語言 1.172.240.57 01/30 15:05
imreader: 除非是在 PTX 上再自製一個高階語言直譯 1.172.240.57 01/30 15:06
mangle: 這篇到底是在捧中國的人工智慧工程師比較 42.79.173.148 01/30 15:08
mangle: 厲害,還是貶美國的人工智慧工程師比較笨 42.79.173.148 01/30 15:09
mangle: ? 42.79.173.148 01/30 15:09
Brioni: 看起來還真的直接硬幹203.204.115.205 01/30 15:09
jacky40383: ptx還是nv的 其他顯卡用不了== 1.175.5.92 01/30 15:09
Brioni: 也可能有專門團隊改Compiler,例如gcc, ll203.204.115.205 01/30 15:10
Brioni: vm去幫助搞定這塊203.204.115.205 01/30 15:10
vicky8610: 青鳥繼續研究64101.139.239.171 01/30 15:10
jacky40383: 還繞過去勒 乖乖買N卡啦 1.175.5.92 01/30 15:10
q4111wei: 感覺像細緻版的多線程 101.10.65.247 01/30 15:11
jupei5566: 有可能嗎 1.200.240.206 01/30 15:11
Brioni: PTX看似像llvm byte code,這類中間語言應203.204.115.205 01/30 15:11
Brioni: 該都差不多203.204.115.205 01/30 15:12
gameboy666: 不被N卡綁死,難怪N跌爛 101.139.44.235 01/30 15:13
nigue: ptx喔,好累喔你加油...223.136.117.124 01/30 15:17
JT0624: 高階不准用就用低階土法煉鋼啊 中國又不是 111.83.88.191 01/30 15:26
JT0624: 第一次這麼做了 111.83.88.191 01/30 15:26
lolpklol0975: CUDE 護城河 被繞過? 玩 101.12.163.70 01/30 15:27
leoloveivy: 又不難 先轉一波再慢慢tune223.137.151.245 01/30 15:28
futakinohi: RTX多一根屌打 223.137.135.93 01/30 15:28
js850604: 不用CUDA那不就是用特規 42.78.73.77 01/30 15:28
mnxzq: 丸 27.53.153.238 01/30 15:31
LOGIC5566: 攻城梯繞過護城河 1.170.91.156 01/30 15:31
create8: Runtime 還是要用cuda, 這只能說他們有223.140.108.105 01/30 15:42
create8: 自己的toolchain 生ptx, 可能也是用 MLI223.140.108.105 01/30 15:42
create8: R?223.140.108.105 01/30 15:42
caity: 繞過CUDA,皮衣刀客會生氣 42.77.45.69 01/30 15:45
wake7078: 繞過去了 123.194.178.24 01/30 15:53
sid3: 繞來繞去 118.171.42.113 01/30 15:58
BraviaX95j: 壓力下求生,越限制只會激發鬥志223.139.124.144 01/30 16:06
fragile8G: 台灣繼續64 223.136.171.13 01/30 16:08
TBOC: 有人繞過CUDA,有人繞過64,我宣布這局平手123.192.220.133 01/30 16:11
Virness: 這點真的厲害 自己手寫更底層的 42.73.151.20 01/30 16:12
Virness: 我也問gpt他說仍然必須用輝達的晶片 42.73.151.20 01/30 16:12
Virness: 所以不是其他家的顯示卡 也可以這樣做 42.73.151.20 01/30 16:12
wulaw5566: CUDA就沼澤 27.52.224.102 01/30 16:21
YSJ543: 很多科技大廠很想繞過CUDA阿.. 106.104.37.56 01/30 16:38
sustto: 還是nv的啊 42.73.37.77 01/30 16:43
hakuoro: 不用CUDA就是怕被美國卡脖子啊 42.72.100.151 01/30 16:44
kingstongyu: NVIDIA只是設計GPU,是無廠半導體公司 36.233.21.49 01/30 16:45
neo5277: 用中階語言比較有效率 36.239.228.170 01/30 16:45
cltang: PTX也要經CUDA的JIT才轉成GPU特定的SASS碼 112.104.15.211 01/30 16:45
km612tw: 台灣只要64 人權經濟衛生安全都不要 114.32.185.150 01/30 16:45
kingstongyu: 日本自PS開始每個遊戲平台都用自己的 36.233.21.49 01/30 16:45
kingstongyu: 的邏輯在設計GPU,可以去看看一個叫 36.233.21.49 01/30 16:46
cltang: 如何真為某型GPU產生code,只有NV自己知道 112.104.15.211 01/30 16:46
kingstongyu: 刀客儿解说的YOUTUBE頻道,裡面會詳細 36.233.21.49 01/30 16:47
kingstongyu: 介紹每一個3D遊戲主機是如何設計自家 36.233.21.49 01/30 16:48
kingstongyu: 的GPU 36.233.21.49 01/30 16:48
kingstongyu: 遊戲商如果要在某主機上推出遊戲就得 36.233.21.49 01/30 16:50
kingstongyu: 摸索該主機的GPU邏輯才能發揮出該主 36.233.21.49 01/30 16:50
kingstongyu: 機的效能極限 36.233.21.49 01/30 16:51
kingstongyu: PS系列自PS4起都不自己設計GPU了,直 36.233.21.49 01/30 16:52
kingstongyu: 接用X86主機板設計遊戲 36.233.21.49 01/30 16:52
jackliao1990: PTX也是輝達發明的 更底層語言111.253.132.195 01/30 17:12
widec: 真的假的 繞過CUDA? 118.232.6.177 01/30 17:13
IdoCare: 壯世代壯世代壯世代壯世代壯世代壯世代 220.136.65.192 01/30 17:14
IFAN: ptx 是 cuda的底層,還是需要nv 卡,但不用c 39.14.41.114 01/30 17:14
IFAN: uda那麼嚴格限制,只要不涉及cuda,光是走pt 39.14.41.114 01/30 17:14
IFAN: x就代表自幹顯示卡是可行的,華為已經要開發 39.14.41.114 01/30 17:14
IdoCare: 腦殘粉紅果測有膽推爆這篇啊低能叛國仔 220.136.65.192 01/30 17:14
IFAN: 相關顯卡是給deepseek使用,這樣nv在ai 領域 39.14.41.114 01/30 17:14
IFAN: 就會少很多優勢 39.14.41.114 01/30 17:14
widec: 還真的是手刻啊 只是不刻晶片 刻軟體 118.232.6.177 01/30 17:17
winner0429: 只要找出比Cuda更有效率的運算處理器 111.90.225.93 01/30 17:19
winner0429: NV就玩完了 111.90.225.93 01/30 17:19
KiwiSoda01: 亞洲工程師才做得到的行徑 記得十幾 114.44.151.161 01/30 17:24
KiwiSoda01: 年前前公司接到某工作 是幫某著名遊 114.44.151.161 01/30 17:24
KiwiSoda01: 戲用組合語言重寫 114.44.151.161 01/30 17:24
carlos159357: 人工除錯很簡單啊,中國人力海尻下 111.82.131.233 01/30 17:29
carlos159357: 去不就好了 111.82.131.233 01/30 17:29
carlos159357: 但如果優化是靠便宜人力海做成的, 111.82.131.233 01/30 17:31
carlos159357: 算真正意義上的優化嗎? 111.82.131.233 01/30 17:31
menchian: 還有人以為高階語言代表性能比較好所以 114.42.153.242 01/30 17:41
menchian: 被禁了,不懂高階語言跟低階語言的差別 114.42.153.242 01/30 17:41
menchian: 還能侃侃而談??拜托不懂就乖乖閉嘴很 114.42.153.242 01/30 17:41
menchian: 難嗎 114.42.153.242 01/30 17:41
acolam: 阿就寫底層拿其他效能沒那麼好的硬幹 42.79.199.241 01/30 17:42
willy0206: 原來是用脆寫的啊 114.42.209.196 01/30 17:50
minaei: 如果這消息為真…只能說非常恐怖! 114.27.187.32 01/30 17:59
sheep922420: 青鳥:抓到了!! 27.242.69.68 01/30 18:05
lianpig5566: 中國卷到這種地步了喔220.133.112.220 01/30 18:17
t77133562003: 吹有點大 CUDA也是堆起來阿 36.231.11.238 01/30 18:20
t77133562003: 你拿人力去堆除錯 會先累死吧 36.231.11.238 01/30 18:20
hamnett17th: 開發成本就差多少了,低才有競爭力 219.70.181.65 01/30 18:29
rocktu214: 就是靠著大量人力除錯 這也是中國優勢210.243.192.188 01/30 18:52
rocktu214: 青鳥到底在生氣什麼?210.243.192.188 01/30 18:52
carlos159357: 如果靠大量人力除錯是降低成本的方 111.82.131.233 01/30 19:36
carlos159357: 法,不就間接表示人力比AI算力還不 111.82.131.233 01/30 19:36
carlos159357: 值錢?!這樣人的價值到底有沒有大 111.82.131.233 01/30 19:36
carlos159357: 於AI 或 機器?! 111.82.131.233 01/30 19:36
quid1121: 這則新聞我持保留態度 再過幾天再上車~ 1.173.181.173 01/30 19:57
netsphere: 用PTX更離不開NV吧,更難移植 180.217.4.182 01/30 20:24
kimkim9988: 如果只用中國自產的晶片就能完成的, 203.190.20.137 01/30 20:47
kimkim9988: 就好笑了 203.190.20.137 01/30 20:47
jay0215: 青鳥黑熊蟾蜍崩~~~潰~~~ 118.167.217.23 01/30 21:19
quid1121: 還吹? 怎不敢把PTX原碼開源 讓我們笑一 1.173.181.173 01/30 23:15
quid1121: 下? 1.173.181.173 01/30 23:15
j0987: 推 111.243.228.2 01/30 23:34
israelii: 對岸都可以用手刻芯片了,用組合語言寫220.138.126.154 01/31 09:05
israelii: 程式有什麼好大驚小怪220.138.126.154 01/31 09:05
joe0934: 中國先進製程屌打中國臺灣積體電路公司 118.232.26.76 01/31 15:15