看板 Stock 關於我們 聯絡資訊
大大 你這樣講不太對啊 記憶體和算力是等價互換 拿個簡單說 在訓練端你永遠可以用gradient accumulation 來降低記憶體 訓練無法一次跑四個樣本 那就一個個樣本跑 記憶體需求降四倍 (算力->記憶體) 這就是你下面舉例子 在inference端也是有 記憶體和算力等價互換 KV Cache -> Token 概念就是事先把已經算過東西存好 不用在算一次 甚至智能也可以用算力->時間互換(Latency) LLM現在很多不強求一步解 會採用類似思考鏈 一步步拆解問題 然後驗證 ( 對比人類心算一次算 跟慢慢手動算) 那你上面兩個概念迭在一起 少了第三個參數 "速度" 也就是Latency 這也是為何LLM這類模型在Inferece端 有一個指標叫做token/sec 簡單說就是 你硬體用低階跑 但使用算力記憶體互換 降低硬體需求 你付出的就是速度 token/sec 原本一秒100 token 給妳這樣一搞 一秒5 token 系統慢 在消費端 就是世界末日 不過這邊的人喜歡用throughput這個字眼 來橫量硬體在這方面表現 這也是為何 有些人覺可以SSD+CPU 來解鎖3090這類低VRAM GPU 但卻可跑100B模型 比方 因為你可以用花時間 分切100B模型參數 迭代是部分放入3090 然後每次計算 再放回SSD + CPU 整合 (基本上就是群聯aiDAPTIV 套路) 這個就是鐵三角(算力 記憶體 速度) 上面犧牲掉的速度 看看精美的aiDAPTIV銷售量 在消費端 速度慢 就是垃圾 這也是為何 蘇媽的核心概念就是高速計算 你可以看到蘇媽的佈局就是速度-> 硬體 -> 速度/成本 幹死妳們 不論是大AI前時代 (遊戲時代) 中期個人電腦 或者現在AI時代 蘇媽核心概念簡單 "快" 這造就整家公司企業沒有pivot (開會最怕聽這個關鍵字)公司整體策略佈局很合理 小公司打死大公司 最重要就是簡單 但方向能長久一直執行下去 然後現在軟體優化 基本上可以叫AI去搞 當初CUDA這些護城河 有可能被x1000打破 蘇媽一定有想過 用AI軟體優化他自家RFCOM 增加迭代速度追上CUDA 畢竟現在我司自身看過工程師+AI Agent 單日產出x1000 我就覺我這輩子就這樣了(*1) 人類學常常用自家ai優化自己軟體 左腳踩右腳 迭代速度快 所以算力小隊 我就賭這兩家 高品質硬體+自家生態系 在衡量ai算力 就是 (記憶體 算力 Latency) 等價三角 /單位電力 然後人類就是那個分母 電池 -- *1 最近在我司又被震撼到一次 有一次我把模型訓練完 強者工程師deploy完 但前端要變動很多才能接 然後前端就踢皮球說 要我們證明模型效能 巴巴拉拉啊好處 他才要去動 通常在以前公司 會兩個部門主管出來打架 蓋章 然後決定是我們這邊遷就 他們 還是他們照我們路線 這種情形在大廠 通常是tech lead會花一個禮拜打架決定 結果強者工程師x1000 兩個小時就把前端寫完 寫個demo 還寫了一個工具去把所有 過去使用這數據爬蟲出來整理 套用在我們場景(數據爬蟲 這個等於是另外一個人工作) 模擬使用者expereicnce 然後證明我們這種模型搭配場景效果 直接用證據說話 然後前端工程師馬上 嚇得說他會去做 因為他意識到 他的飯碗跟scope瞬間被強者工程師搶走 再多說一句 只會讓人覺他的能力不行 在那剎那我突然意識到 以前大廠互相鬼扯打架的 誰遷就誰 要證明哪個系統好 在新創搭配ai agent情況下 這些都沒意義 一切就是比誰能把系統實作出來 用結果說話 以後就是這樣 連跨部門吵架 都不用tech lead 直接實作系統硬幹對方 當一個人x1000 就是可以單純暴力胖揍同事 ※ 引述《teddy98 (泰迪!走吧!)》之銘言: : 我來說說,為甚麼說,AI需求是供應商精心設下的套路吧! : 剛踏入AI的人 : 可能會覺得,AI的神經網路演算法(大規模平行矩陣運算), : 好吃硬體資源啊,硬體規格的需求好大,幾乎看不到天花板。 : 所以,很多人會有"AI算力需求是永無止盡的"這種錯覺, : 但用久了開始熟悉AI之後,你會發現, : 其實AI龐大的硬體需求,是一種供應商精心鋪設好的套路 : 也是一種吹捧、誇大其辭的行銷手段。 : 為甚麼會這樣講? : 第一,AI模型的節點不一定有經過優化(化繁為簡) : 拿軟體來比喻,一個source code寫很爛的軟體,沒有經過優化, : 如遞迴運算,消耗掉比正常高2~3倍以上的硬體資源。 : 會佔用大量的 GPU VRAM 和運算週期。 : 這時,你怪的不是AI模型爛,而是AI算力不夠? : 第二,AI模型的運算流程可以分批次進行 : 一個步驟,可以切成4個子步驟進行,用For循環4次執行 : 如生成式繪圖,如果一張解析度非常大的圖像, : 切割成4個區塊,用For循環做4個批次處理,再用TTP圖像拼接/重組, : 將4個處理好的圖像做合併 : "可以大幅減少AI在運算時VRAM的占用量。" : 這部分算是AI行家才知道的機密,供應商絕對不會和消費者說。 : 因為要是讓你知道了,你就不會為了增大VRAM升級你的顯示卡或DRAM了。 : 前陣子,我在看GPU規格時,VRAM總是找不到16G以上的規格, : 現在回想,果真是中了NVIDIA的市場行銷套路。 : 因為,輝達,配備VRAM 24G以上的唯獨最頂級90系列的GPU才有, : 如: RTX 3090, RTX 4090, RTX 5090 : 現在回想,當時是差點中計了,浪費錢買RTX 5090是不必要的。 : 因為AI算法再怎麼吃資源,也是能透過優化和分批處理,來解決硬體配備不足的部分。 : 實測後,再高解析度的繪圖,12G的繪圖卡也能勝任。 : 也不需因為GPU記憶體的配置比較低而選用低精度的模型,fp16照樣可以跑得很順暢。 : 目前生成式AI的發展非常快,模型也漸趨成熟了, : 只要巧妙地設置好AI的流程,好像也說不上,需要多高階的硬體規格來跑AI模型。 : 而且現在的AI模型不斷推陳出新,新的AI模型的容量也越來越小。 : 占用的GPU資源也明顯下降。 : 大部分舊模型低配要24G VRAM才能跑的,新模型只要16G甚至12G VRAM就能完美運行。 : 不管是文字圖片精修,影像P圖,視訊P圖,設好對的節點,低配的GPU也能完美優化。 : 現在那些號稱"專家"或"分析師"的傢伙 : 對於AI的硬體需求越開越高,到達浮濫的地步, : 會有這種現象,很大程度上是供應商(輝達)精心設下的套路。 : 也是為了喊多股市的一種噱頭。 : 不過,很少用Photoshop是真的,AI模型很大程度上解決以往在影像修復上的難題。 : 圖片經過AI重新生成,容量也變小了 : (原圖722KB,修復後268KB,減少將近63%。) 計算: (722-268)/268*100%=62.88% : 試問各位的看法呢?怎麼看未來AI的硬體供貨需求? : 記憶體族群的雜音最多,有人喊AI供貨短缺上看2030年 : 但Samsung開始跟客戶簽長約,有人說可能離市場飽和不遠了 : 以目前的記憶體類股的股價來看,是看多還是看空呢? : ---- : 書脊,修復前 : https://ibb.co/1tzg824g : 書脊,修復後 : https://ibb.co/zWRrPqjr : AI生成 - 虎兔狗 : https://ibb.co/8n8MF5Kr : https://ibb.co/5hwkq4ZB : https://ibb.co/nN83j1XD -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 76.21.72.78 (美國) ※ 文章網址: https://www.ptt.cc/bbs/Stock/M.1774118620.A.3D2.html ※ 編輯: LDPC (76.21.72.78 美國), 03/22/2026 02:46:18
a0808996 : 好日子要到頭了!!! 再繼續飛升就要回家吃自己 03/22 02:46
duriamon : 台灣就是代工思維不長進才一狗票人對AI的發展當井底 03/22 02:54
duriamon : 蛙,笑死! 03/22 02:54
newwu : 原文很明顯沒有很懂 03/22 02:55
soome : 人類還能再上幾年班不被取代QQ 03/22 02:57
duriamon : 當一個東西疊代速度是按月算得,就該知道這東西絕對 03/22 02:57
duriamon : 不是用以前的概念去套,呵呵! 03/22 02:57
※ 編輯: LDPC (76.21.72.78 美國), 03/22/2026 03:13:15
QQMMWA : 不上班是好事 怎麼被某樓說成了壞事一樣 03/22 03:45
QQMMWA : 如果人類真的沒班可上 03/22 03:45
QQMMWA : 代表人類科技力和上帝一樣 03/22 03:45
QQMMWA : 已經有創造智慧體的能力了 該開心 03/22 03:45
QQMMWA : 反而是現在的ai 離取代人類還遠的很 03/22 03:45
QQMMWA : 人類真的能創造agi 03/22 03:46
QQMMWA : 癌症 等各種疾病早就被攻克了 03/22 03:46
QQMMWA : 各種疾病都準備被攻克 03/22 03:46
QQMMWA : ai搞到所有人類都沒班可上的程度 03/22 03:46
QQMMWA : 那人類才會幸福 03/22 03:46
ChikanDesu : 原文就自以為發現新大陸 實際上前提根本錯 又覺得大 03/22 04:22
ChikanDesu : 廠是低能 花幾兆的人決策會比他差? 03/22 04:22
sdbb : 謝謝 03/22 04:45
layer0930 : 你覺得工作很快的原因是因為 03/22 06:45
layer0930 : 目前ai解決簡單的問題 很快 03/22 06:45
layer0930 : 實際上複雜的問題還是會拉的很久,且出錯問題很大 03/22 06:47
layer0930 : 另外 目前ai 不是單純因為有了 cache 就能解幻覺跟 03/22 06:47
layer0930 : 速度, 03/22 06:47
layer0930 : 爬蟲跟一些畫面的撰寫 如果不要求設計風格 。靠ai 03/22 06:49
layer0930 : 快速幫忙 當然ok 03/22 06:49