Re: [請益] 算力需求到底是缺還是快飽和了？

作者LDPC (Channel Coding)

看板Stock

標題Re: [請益] 算力需求到底是缺還是快飽和了？

時間Fri Jul 3 07:59:55 2026

QQ先 disclaimer 一下。剛剛把自己寫的廢文丟給 GPT 校稿，以下是校稿後的版本。這篇講得蠻好的。針對inference寫點補充 inference 並不代表 NVIDIA 就會失去優勢，我反而認為它目前仍然是最大的受益者，至少短中期如此。原因有幾個：第一， CUDA 生態系的護城河，比很多人想像的大得多。現在幾乎所有主流 inference optimization，都是先支援 CUDA。例如： vLLM SGLang TensorRT-LLM FlashAttention DeepEP NCCL CUTLASS 這些幾乎都是圍繞 CUDA 生態發展。尤其 vLLM，目前 GitHub 已經超過 6 萬顆 Stars，是目前 LLM inference 最主流的 serving framework。 SGLang 近一年成長也非常快， GitHub 也已經累積萬級以上 Stars。兩者最成熟、效能最好的 backend，都仍然是 NVIDIA GPU。 AMD ROCm、 Google TPU、 Intel Gaudi 並不是不能跑，而是整個開源社群、最佳化工具、除錯經驗、以及第三方套件，都還遠遠比不上 CUDA。真正做 production inference 的團隊，會知道 migration 的成本，其實非常高。現在所有垂直AI 應用層都是用上面框架去優化老黃GPU搭配自家模型第二，大規模 Data Center 的系統能力，目前 NVIDIA 仍然領先。單張 GPU 已經不是重點。真正困難的是：幾百到幾千張 GPU 的互連 NVLink / NVSwitch Collective Communication（NCCL）機櫃散熱 Power Delivery Burn-in、Pressure Test 長時間穩定運行這些不是只賣晶片，而是整個 AI Factory。目前真正能把數千張 GPU 做到高利用率、穩定運作，並提供完整軟硬體解決方案的， NVIDIA 仍然是最成熟的玩家。所以我比較同意的是： Training 的黃金年代可能正在結束，但 Inference 的黃金年代，才剛開始。只是 NVIDIA 的優勢，已經不是只有 CUDA，而是整個 software + networking + systems + datacenter integration 的完整生態。至於記憶體，我也認同需求還會繼續增加。只是如果未來 Frontier Lab 不再用「軍備競賽」的方式瘋狂搶產能，而是由擁有大量 RPO （Remaining Performance Obligations）的 CSP（Cloud Service Provider）依照實際需求採購，那麼 HBM 的供需仍然會很強，但過去那種因為恐慌而產生的溢價，確實有可能逐漸收斂。反而像台積電，我認為受影響相對較小。不管是 pre-training、 post-training，還是 inference，大部分高階 AI Accelerator 最終還是要依賴先進製程。 AI 算力需求即使從 training 轉向 inference，本質上仍然離不開台積電。因此如果市場因情緒一起修正，台積電反而可能是受錯殺程度較高的一方。 ※ 引述《breathair (拆了？簡單了)》之銘言： : ※ 引述《soga0806 (巴歐薩給路嘎)》之銘言： : : 如題 : : 七巨頭不是狂支出砸基建嗎 : : 怎麼不到一個月 : : Meta跳出來說算力過剩 : : 還可以租給別人了 : : 真的假的啊？ : : 鏟子股天花板快到極限了嗎 : : ---- : : Sent from BePTT on my iPhone 11 : 我覺得對一半 : 1. Meta 不是CSP，但他AI採購了CSP規模的資本開支 : 原因無他，想要自己訓練模型 : 把關鍵（智力）握在自己手上 : 2.AI的訓練算力需求見頂，過剩下滑 : 越來越多人將發現 : 模型不是堆算力就好 : 你不會訓練模型，再多算力就是搞不起來 : 訓練市場將迎來史詩級崩盤 : CapEx 將縮小至只有CSP業者為了滿足RPO才會瘋狂每年大幅成長 : 奇怪xAI不是演過一輪了，怎麼這次Meta動靜這麼大？ : 3. 訓練市場退燒，推理市場剛剛開始 : 生死級別的軍備競賽結束了 : 你7巨頭誰也別擔心被那家顛覆 : 頂級AI模型目前掌握在OA兩家 : 需要牛奶，買牛奶（token)就好 : 不需要買一頭牛 : 以此推演 : NVDA受傷最重 : CUDA的優勢在訓練。一轉移到推理市場，那可是百家爭鳴 : 記憶體次之 : 推理同樣強需求的記憶體 : 問題在此次競價式的漲價模式 : 需要溢價搶產能的玩家退到手握RPO的CSP，誰需求多，誰需求少都容易掐指一算 : 只要不是軍備競賽式的搶 : 這部分的溢價會被影響到 : 而這部分的溢價可能已經被反應了 : 要回吐了 : 台積電機會不影響 : 訓練到推理。離不開台積電 : 應該屬於錯殺成分最大 : 有子彈的我覺得是好時機 : ----- : Sent from JPTT on my iPhone -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 98.37.67.135 (美國) ※ 文章網址: https://www.ptt.cc/bbs/Stock/M.1783036797.A.4D1.html ※ 編輯: LDPC (98.37.67.135 美國), 07/03/2026 08:02:34

推 chenzu740125: 好文同感 07/03 08:03

推 ben121196 : 正2教又贏麻惹 07/03 08:07

推 s555666 : 但nvidia已經榨不出更高的產能 07/03 08:09

→ maplefff : 幹這篇整個就是GPT風, 那個超短斷句一直換行 07/03 08:16

→ maplefff : 真的是從哪裡學來的，看了頭好痛 07/03 08:16

推 bj45566 : 感謝 AI 第一線從業人員提供的資訊 07/03 08:17

→ maplefff : 預訓練資料都是抖音廢文嗎 07/03 08:17

推 jim543000 : cuda被捨棄 nv還剩下什麼換句話說矽晶圓走到瓶頸 07/03 08:19

→ jim543000 : 台積電還剩下什麼 07/03 08:19

推 yu1155 : 感謝LDAI @@/ 07/03 08:21

→ ashs92223 : 為啥校稿後排版會這麼怪 @@ 07/03 08:22

prompt沒下好說要照批踢踢格式排版.... 是誰污染了gpt QQ ※ 編輯: LDPC (98.37.67.135 美國), 07/03/2026 08:25:46

→ yunf : 始作俑者 07/03 08:37

推 deangood01 : 就問一句佔toB 市場大頭anthropic 推根本不用NVDA 07/03 08:38

→ ActionII : Nv 那一套是真的好用跟方便，付錢就能解決問題 07/03 08:38

→ deangood01 : 你多的那一狗票東西不是錯的只是商用根本就不用 07/03 08:39

→ deangood01 : Anthropic 推論就兩個TPU + Trainium 07/03 08:39

We train and run Claude on a range of AI hardware— AWS Trainium, Google TPUs, and NVIDIA GPUs. 上面是人類學的官方啊人類學也有用到Nvidia GPU 再加上垂直AI全部都用老黃啊醫療法律會計電影狗家雲端利潤狂上漲就是這些垂直AI跟他租Nvidia GPU/Corewave財報也是狂上漲啊我每天都在跟vllm打架啊 OpenAI 在今年的基礎設施規劃中提到，將新增 3GW 專用 inference capacity，建立在 NVIDIA Vera Rubin 比方說Harvey 這家AI就是搞律師AI 造成美國初階律師大量失業 https://reurl.cc/X2OQ1D 他就是用Nvidia 去蓋Agent環境

推 squelch : 更正你一下不是先進製程是先進封裝先進製程早 07/03 08:39

→ squelch : 就達到物理極限了現在只是換方式做而已 07/03 08:39

推 jim543000 : 先進製程還沒到物理極限下一代才是 07/03 08:42

→ davie11333 : 99記憶卡蛙! 07/03 08:43

推 squelch : 先進製程早就達到極限了，現在根本不講crital size 07/03 08:49

→ squelch : 只用等效多少欺騙社會大眾，這也就是馬斯克在罵的 07/03 08:49

→ squelch : 地方。其實所謂的nanosheet就是在單層的3D發展元 07/03 08:49

→ squelch : 件，未來跨層還有CFET，腦袋早就動到3D方向去了。 07/03 08:49

→ squelch : 你可以查查台積電製程是什麼時候脫離critical size 07/03 08:49

→ squelch : 的定義。 07/03 08:49

推 ksjr : 不可懷疑我大GG教 99記憶卡蛙 07/03 08:55

※ 編輯: LDPC (98.37.67.135 美國), 07/03/2026 08:59:06

推 josephpu : 老黃市占從8、9成掉到7成，市場就不願意推他了= = 07/03 09:00

→ josephpu : 雖然我想最終還是會來的 07/03 09:00

推 bunjie : 台積製成要微縮就只能往3D的CFET走 07/03 09:01

→ bunjie : 反正不管哪一家微縮到後來就是蓋大樓 07/03 09:01

→ bunjie : 其實我覺得最終問題應該還是在於發熱處理 07/03 09:01

→ bunjie : 熱都堆積在3D結構中怎麼導出來 07/03 09:02

→ hunt0413 : 教主的AMD怎麼辦 07/03 09:03

@@買啊 inference時代會有很多玩家 AMD好處就是現在市值低每吃個老黃5%市場就能暴漲我算力小隊現在只買蘇媽老黃就是190以下買 i皇不買

→ bunjie : 不過不過你半導體股票怎麼買GG的確是不可質疑的歸 07/03 09:03

→ bunjie : 宿 07/03 09:03

→ bunjie : 不過不管 07/03 09:03

※ 編輯: LDPC (98.37.67.135 美國), 07/03/2026 09:06:25

推 jim543000 : cd還能再縮半次一次沒了可以去看看sem 有縮小等 07/03 09:06

→ jim543000 : 效歸等效 07/03 09:06

推 Shepherd1987: 錯殺也是殺把貪狗洗下車 07/03 09:07

推 HiuAnOP : 不可能！GG IS OVER！ 07/03 09:21

→ HiuAnOP : 老實說卡哇毛利那麼高了還只賺這樣才是崩的原因啦 07/03 09:21

→ HiuAnOP : 長期給60%毛利 EPS要會被殺多少？ 07/03 09:22

→ HiuAnOP : 產能變3倍 EPS才跟現在一樣還要掏一堆現金扛折舊 07/03 09:22

→ HiuAnOP : 而且DRAM/NAND標準品長期會有60%毛利？？ 07/03 09:23

→ HiuAnOP : 那GG毛利拉到75%都不意外 07/03 09:24

→ HiuAnOP : GG算什麼小隊啊？不幸小隊嗎QQ 07/03 09:25

推 hunt0413 : 00631L DRAM NVDA AMD 全打包 07/03 09:31

推 create8 : Amd Yes!! 07/03 10:09

→ create8 : 巨頭手下留情呀，留口飯給軟工QQ 07/03 10:10

推 deangood01 : Anthropic 當然也有用NVDA訓練用，推理部分NVDA比例 07/03 11:08

→ deangood01 : 低很多，原因是AWS GCP 有成本更低的trainium TPU 07/03 11:08

→ deangood01 : hyperscaler的毛利更好，況且Anthropic工程師有針對 07/03 11:09

→ deangood01 : 兩個ASIC架構寫底層的kernel 像是NKI for trainium 07/03 11:11

→ deangood01 : 大多數美國前1000企業一定是用hyperscaler 上面部 07/03 11:12

→ deangood01 : 你說OpenAI用NV本來就不是新鮮事，但他TOB 營收輸 07/03 11:13

→ deangood01 : 還沒有盈利能力，還是要看頭部營利企業，採用的模式 07/03 11:14

→ deangood01 : 有營利才能產生正向現金流，繼續擴大資本開資 07/03 11:14

以及針對人類學有人推算過他們大概在inferece 還有30%左右是來自NVidia openai這邊敘述也不太對啊 https://extrapolator.ai/2025/10/12/openais-trillion-token-titans/ openai to-B也是有很多營收來自vertical AI 這些尤其是Trillion token 俱樂部在2026年初 OpenAI有說過自己Entrprise已經佔總營收40% 現在ToC 利潤太低之前已經說過賺一個用戶20美金一個月不如賺一個醫生/律師1000美金一個月使用費 https://reurl.cc/R2K879 現在所有AI都是瞄準To-B 哪來的沒盈利目前openai 比人類學佔優勢就是GPU數量和Infra這部分資源目前openai arr是33B anthropic arr是47B 大體原因就是openai to-C利潤低而openai 目前靠者codex和voice agent enterprise (GPT-Realtime-2企業版) 目前語音Agent上 openai做得比Anthropic好 (人類學沒有語音VoiceAgent企業solution) 開始有在to-B有機會挽回一波 infra之優化會反映體驗在這 https://zhuanlan.zhihu.com/p/2038687070491825312 這也是為何自幹infra優化 vs 生態圈優化infra (cuda陣營) 後者還是有一定吸引力 ※ 編輯: LDPC (98.37.67.135 美國), 07/03/2026 11:46:11

→ prussian : Anthropic租的xai全都是NV,不用NV的是哪個平行宇宙? 07/03 11:48

對這邊有細節在infernece增益多少tokens https://www.anthropic.com/news/higher-limits-spacex https://reurl.cc/bdZxdy ※ 編輯: LDPC (98.37.67.135 美國), 07/03/2026 11:56:59