看板 Stock 關於我們 聯絡資訊
要解釋的東西很多, 趁著長週末, 我就把為何inference 就是 DRAM+ASIC 這件事說明白, 尤其是MRVL 首先, 這是META 發表新的AI ASIC for inference, ASIC+CXL+DDR4/DDR5 https://www.tomshardware.com/pc-components/dram/meta-fights-soaring-hardware-costs-by-reusing-old-ddr4-server-memory-in-new-ddr5-only-servers-custom-cxl-2-0-chip-marries-legacy-ddr4-2400-with-cutting-edge-ddr5-6400 這是Quqlcomm 發表新到AI ASIC for inference, ASIC+DRAM+ near/in memory compute https://www.tomshardware.com/tech-industry/artificial-intelligence/qualcomm-reveals-hbc-near-memory-ai-architecture-ai250-and-ai350-accelerators-touts-6x-higher-bandwidth-per-watt-compared-to-hbm-200x-capacity-compared-to-on-chip-sram 這是MRVL 跟谷歌聯合發表的MPU, ASIC+CXL+DRAM+ near/in memory compute https://www.semicone.com/article-432.html 其實, 這三顆很可能是同一顆晶片, 至少已經確定其中兩顆是同一顆晶片, 然後因為合約沒有鎖IP 跟專利, 所以這顆晶片已經賣到全世界幾乎每家公司都已經有solution了, 包含中國的阿里, 百度等公司, 這顆已經賣翻了, 這也代表整個 inference 產業已經從 GPU HBM, 轉型成為ASIC + CXL + DRAM + in memory compute, 這顆晶片從一開始就是為了解決LLM memory wall 而設計的, 又剛好非常適合inference 的使用模式, 再解釋就又要寫一堆, 而且又是無限引戰文, 我就直接告訴你整個業界現在就是這樣走 ※ 引述《waitrop (嘴砲無雙)》之銘言: : ※ 引述《maplefff (降息の恐怖嘎鱷)》之銘言: : : 這要從兩個層面去分析當前現況: 模型層 和 雲基礎設施層 : : 如果只評估最能盈利的toB coding方向, 目前主要LLM提供商能力大致如下 : : Anthropic > OpenAI >>>> Gemini >= 中國模型 > grok, meta, others : : 模型層營收開始出現顯著分化, 開始往兩超集中, 並且愈來愈集中的態勢 : : 模型商品化, 白菜化的敘事落空, 市場看法逐漸轉向並不是花大錢, 疊加算力 : : 就能得到前沿模型能力. 前沿LLM供應商保有足夠多的隱秘知識, 並逐漸壟斷市場 : : 這表示Anthropic, Open AI 營收增速高100%, 毛利率60%~高70%可能是可持續的 : : 能見度至少有半年, 並可能延長到1~2年以上 : : 模型層的高毛利使得模型供應商有能力支付高溢價購買算力 : : 所以高毛利會逐漸傳導到雲基礎設施供應商, 大幅改善4大CSP業者的現金流 : : 並繼續推動AI基礎設施的擴充 : : 這裡有幾個消息或資訊可以應證該推論 : : 1. AWS 7/1開始對EC2 ML服務直接漲價20%: : : 這是既26年1月調漲15%, 最新一輪的漲價; 並且漲幅比之前更大, 年內累積漲幅達38%. : : H100(P5)報價: : : 1月前: ~$3.8/hr 1~6月:~$4.3/hr 7月: ~$5.2/hr : : H200(P5e)報價: : : 1月前: ~$4.3/hr 1~6月:~$5.0/hr 7月: ~$6.0/hr : : B200(P6-B200)報價: : : 1月前: NA 1~6月:~$10.3/hr 7月: ~$12.4/hr : : 2. Vast.ai上的價格: : : Vast.ai是目前市場上最大的P2P GPU租賃平台, 其代表的意義是GPU租賃地板價 : : 因為市場肯定是從: 四大CSP -> NeoCloud -> Vast.ai等另類平台 : : 這樣的順序去依序尋找算力,上一層價格太貴才會往下找, 所以價格對需求外溢 : : 的敏感度會非常高. : : Vast.ai另外一個好處是價格是即時撮合出來並留有歷史季度 : : https://vast.ai/pricing/gpu/B200 : : 可以看到價格從1月開始逐步緩漲, 到5月矽谷開始Tokenmaxing狂潮, : : 價格中價暴漲將近100%, 然後逐漸回歸理性, 但年內依然累積60%左右漲幅 : : 最後結論一下:總得來講LLM市場競爭正在逐漸去泡沫, 淘汰實力較弱的參與者 : : 並轉向合理的寡頭壟斷, 這使得LLM行業能保持合理毛利率, 並逐漸擴散到整體相關行業 : : 在模型層失利的廠商, 透過轉化現有GPU去基礎設施層改善現金流和資產價值 : : 是理性的雙贏選擇, 推論其為泡沫破裂的早期徵兆是嚴重滑坡 : : CSP, NV股價有被低估, 記憶體股價低得誇張, 可以攤平購買 : 先說結論, : 算力還是很缺, : 記憶體, 尤其是DRAM, 還是很缺 : 詳細原因, : 我在幾個星期前有解釋過 : https://www.ptt.cc/bbs/Stock/M.1782458086.A.529.html : 撇開不能說, : 以及家醜不能外揚的部分, : 可惜這部分才是最精彩的地方, : 我說的都是我在業界現在正在看到的情況 : 從去年下半年開始, : 尤其Gemini 追上 OpenAI Claude 之後, : LLM 訓練部分已經不是瓶頸, : 因為各家大模型現在訓練出來都差不多聰明, : 沒有到差距很大, : 如果你有感覺差距很大, : 那是信仰的問題, : 當然Claude 在 coding 這塊是真的強也真的好用, : 這些就不多說, 會引戰 : 反正去年下半年之後, : 主戰場就轉移到推理inference 上面, : 也就是AI API token 等應用層面上, : 而inference 推理市場是訓練市場的百倍千倍以上, : 所以怎麼可能會算力過剩, : 推理應用市場所需要的算力遠遠不足, : 你看Gemini 現在的表現就知道推理的算力還是不足 : Meta 跟 xai 算力出租代表的是他們退出AI訓練競爭, : 也就是退出AI 模型競爭, : 轉型成為資料中心的包租公, : 你就想成像是類似ORCL Corewave等公司的形式, : 不開發模型, 單純出租算力 : 這不表示算力過剩, : 只是表示他們退出AI模型競爭, : 現在算力都用在推理inference, : 用在每一筆AI API token, : 也就是真正能生出錢的地方, : 只要token 還有需求, : 算力就會有需求 : 除了谷歌之外, : 模型商跟CSP廠是各自有自己的算盤, : 以CSP廠的角度, 包含Meta xai+cursor等, : 他們的商業想法是, : 如果以後每一個模型都差不多一樣聰明, : 那麼真正有議價權跟控制權的是掌握算力的一方, : 也就是CSP廠, : cursor 套皮可以隨意轉換任何模型, : CSP廠跟meta 等算力出租公司, : 可以壓低模型價格可以用自己的算力去議價 : 在模型商的想法是相反, : 如果模型商能出一個遙遙領先最聰明的模型, 甚至是AGI, : 那麼有議價權跟控制權的是這個唯一的AGI 模型, : 他們可以隨意轉換CSP廠壓低算力價格, : 最好的例子就是OpenAI 怎麼去凹 微軟跟ORCL的算力 : 所以這很難說 誰會勝出, : 你覺得以後會有唯一的AGI真神模型, : 還是以後所有的模型都差不多一樣聰明的爛大街模型, : 我沒有答案就是了 : Anyway, 扯遠了, : 反正訓練模型只剩三家在玩, : 但是inference 推理市場是百家爭鳴, : 賣token 的是算力遠遠不足, : 而其中, : DRAM 對inference 的需求會遠高於HBM, : ASIC 對inference 的需求會遠高於GPU, : 這道理就是量大管飽, : API token 要的就是量大管飽, : 速度差一點沒關係 : 或者我們用生活上的例子來說明, : 台北到高雄, : 你可以選擇坐飛機, 坐高鐵, 坐台鐵, : 開法拉利, 開Toyota, : 甚至可以選擇坐統聯, 或是騎腳踏車一日雙城, : 這跟你的乘客量還有票價有很大的相關性, : inference 推理的API token 要的就是量大管飽, : 每個token 的單價要壓到最低, : 吞吐量要最大, : 所以訓練是開法拉利, 推理是坐公車, : 訓練是坐飛機, 推理是搭公車 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 76.103.225.6 (美國) ※ 文章網址: https://www.ptt.cc/bbs/Stock/M.1783046332.A.2A2.html
HiuAnOP : HBM還是需要啦!只是DDR5跟NAND一起上陣殺敵! 07/03 10:40
fatb : 看有沒有降價就知道了 07/03 10:43
chiangww : 聯發科的呢?難道是騙砲? 07/03 10:43
roseritter : CXL之前有喊一波 07/03 10:43
fatb : 這問題的答案真的是太簡單 07/03 10:43
maimss : 太累了,研究太多不如持續做多就好了 07/03 10:44
maimss : 反正總是會嘎空軍 07/03 10:44
fatb : Meta只是打不贏 放棄虧錢事業而已 07/03 10:44
Qoo20811 : 堅持當卡蛙就是覺得卡蛙的遠期本益比至少要跟CPU差 07/03 10:52
Qoo20811 : 不多 07/03 10:52
hanszaza : 感謝優文 07/03 10:54
devilsabre : 推 07/03 10:54
seemoon2000 : 算力離過剩還遠咧 不然你現在打開gpt或claude開最 07/03 10:54
seemoon2000 : 耗算力的推理跑半小時試試看會不會限流 07/03 10:54
XenonFat : 想藉題請教一下新創Etched那一顆晶片未來有沒有戲? 07/03 10:55
hanszaza : 卡哇 mrvl 康寧 gg to the moon 07/03 10:55
ezmlzvu : 是缺 07/03 10:56
sdbb : 敬祝國慶假期愉快 07/03 10:57
maplefff : 我希望能深入CXL怎麼解決decoding 07/03 11:02
maplefff : 記憶體頻寬不足的問題? 07/03 11:02
maplefff : 不然容量解決了, TPS下降到1/10不到也沒用啊 07/03 11:02
maplefff : 另外現在等容量的DRAM和HBM價差似乎已經不值得 07/03 11:02
maplefff : 另外投資DRAM擴容系統,因為成本根本沒降低? 07/03 11:02
ztsc0304356 : 請問Meta + Qualcomm 各一顆, 那第三顆是 07/03 11:06
ohya111326 : 結論 最大受益者 TSM 07/03 11:07
dosiris : 第三顆就Marvell跟狗狗做的MPU 07/03 11:09
dosiris : 其實是第三顆最可能被普及 07/03 11:10
ztsc0304356 : 對齁 都忘了有這顆 謝謝大大 07/03 11:10
ZO20 : 算力過剩笑死 專案現在都交叉平台跑 要怎樣過剩啦 07/03 11:16
FatFatQQ : 實際上需求越來越大 人類要擔心的是自己 07/03 11:23
JAM950317 : 算力不會過剩 但股市本體還是金融博弈不是技術 07/03 11:24
flycarb : 推TQ王。 07/03 11:25
FatFatQQ : 以後的資本—把人類房子拆掉 蓋資料中心 07/03 11:26
yulun1984 : 不用討論那麼多 一直多就好了 07/03 11:29
oyaji5566 : 這些都不重要 華爾街要的是什麼時候開始賺錢 07/03 11:29
k255033 : 電力無限就不會算力過剩了吧 07/03 11:30
sheep2009 : 有用agent就知道 算力需求是無限的 07/03 11:33
jacokon : 既然是業內的話,至少先把寫的東西用AI查證下吧 07/03 11:35
jacokon : 瘋狂打臉耶:作者把近期幾家科技巨頭為了省錢、回收 07/03 11:35
jacokon : 舊資源和開發新架構的新聞混為一談,甚至說出「這三 07/03 11:35
jacokon : 顆很可能是同一顆晶片」這種嚴重的技術常識錯誤。 07/03 11:36
jacokon : 「這顆晶片已經賣到全世界幾乎每家公司,包含阿里、 07/03 11:36
jacokon : 百度,已經賣翻了」——這與原始新聞直接矛盾 07/03 11:36
sheep2009 : 現在就是看誰能把token成本壓到最低 誰就是贏家 07/03 11:37
jacokon : 其它錯誤就不一一列舉了 07/03 11:38
sheep2009 : 壓到最低也要維持 latency/throughput 07/03 11:39
YoungLoka : 老哥 有沒有可能他講已經賣翻的那顆跟你說的是不同 07/03 11:41
YoungLoka : 東西 07/03 11:41
maplefff : 我感覺CXL更多是agents 共同上下文KV快取復用技術 07/03 11:42
maplefff : 不是用於解決長上下文decoding memory wall的問題 07/03 11:42
jacokon : 他講賣翻的那顆,很明顯是承接前幾句:"同一顆晶片" 07/03 11:48
jim543000 : 目前已知事實 推論就是使用dram沒錯 07/03 11:51
jim543000 : 我在大概一個半月前就說過了 07/03 11:53
jiansu : Inference 用aisc加上in memory compute 看起來真 07/03 11:55
jiansu : 的會這樣走 主要是瓶頸就記憶體頻寬 靠設計封裝去 07/03 11:55
jiansu : 解合理 算力沒那麼重要 文中同一顆這個就比較不清 07/03 11:55
jiansu : 楚 07/03 11:55
pig0038 : 研究那麼多幹嘛,最後還不是 all in gg 07/03 11:55
pig0038 : gg 漲不下去或者沒資本支出消息就是沒了 07/03 11:58
deangood01 : 縮個網址吧 07/03 11:59
pig0038 : 怕的話就緊盯毛利率,毛利率開始下降也代表有機會 07/03 12:04
pig0038 : 沒了 07/03 12:04
ksjr : 有趣的是我把這篇文給三個不同AI分析Gemini表示贊同 07/03 12:05
ksjr : A家和O家都在質疑"同一顆晶片" AI很聰明會查作者IP 07/03 12:06
OxFFFFFFFF : 到底哪一篇有提到 in memory compute?? 07/03 12:12
OxFFFFFFFF : 你到底懂不懂什麼是in memory compure? 07/03 12:13
The MPU aims to offload in-memory computing tasks to alleviate TPU bottlenecks in memory bandwidth, thereby improving system efficiency in high-concurrency inference scenarios. Qualcomm reveals HBC near-memory AI architecture, AI250 and AI350 accelerators — touts 6x higher bandwidth-per-watt compared to HBM, 200x capacity compared to on-chip SRAM 我不知道是你的英文閱讀問題還是你的AI 模型有問題
maplefff : PIM感覺根本沒看到所謂的成熟方案 07/03 12:17
namenone : CIM都在偷偷做啦,但都在testcip的階段吧 07/03 12:19
※ 編輯: waitrop (76.103.225.6 美國), 07/03/2026 12:47:07
kausan : 他可能沒訂閱 07/03 12:55
sdbb : 補血 07/03 13:00
sdbb : 相信老黃和tqqq 王的仙人指路 07/03 13:01
hellomo : 推TQ大 07/03 13:03
TIPPK : 99三星海力士 07/03 13:08
TRYING : 實體AI 也不能不用記憶體啊 07/03 13:21
jacokon : 這三篇確實沒有做到「in-memory compute」 07/03 13:59
jacokon : 其實都是「near-memory compute」在技術上是不同的 07/03 13:59