作者sxy67230 (charlesgg)
看板Gossiping
標題Re: [問卦] DeepSeek V4是不是屌爆了啊?
時間Thu Apr 30 09:34:17 2026
※ 引述 《freeunixer》 之銘言:
: 我這兩天在想要怎麼講 DeepSeek V4 對於中國的意義與價值,
: 但實際上,這個進展,不只是 DeepSeek,還包括華為、Kimi
: DeepSeek:
: 1.V4 用 FP8+FP4(MoE) 訓練
: 2.CSV + HBA 暴力壓縮 KV Cache 耗用
: 3.降低每次啟動參數量
: 4.MoE 的通訊與計算切更細,改寫算子,做到精度對齊,
: 在 NV 及華為上可跑出相同的數學結果
: 達到 unbinding CUDA,使內文視窗可達到 1M tokens
: 以上,在為以下鋪路
: 華為:
: 1.CANN 在 DeekSeek 的支持下有了代表實績可以對抗 CUDA
: 所以,只需要用華為 950PR 的 NPU(推理用),就能滿足用戶使用,因此
: 2.950PR 從四月開始到明年,會是 NV 以外,最搶手的中國 LLM 卡.
: DeepSeek 破壞性價格,也源自於推理使用時的硬體成本降低(不需 H200 或更高).
阿肥外商碼農阿肥啦!
回自己的文章還是蠻害羞的。
這邊說一下,2026年的現在領域內的發展情況好了,當前學術跟工業界大家都知道的就是要
讓語言模型做到世界模型(Super AGI)是不太現實的事情。過去讓LLM從準確度10%進步到80
-90%是很容易的事情,數據scale up起來就可以做到,但是要Optimize剩下10%-20%確實非
常困難的。
主要原因就是要在實驗室裡面逼近無偏的世界母體是很困難的,這個世界的物理樣態其實是
密集連續無窮的要窮舉所有數據讓模型一次學習到底很不實際。
所以為什麼2026年會大家開始重視Agent,開始重視Harness Engineering。其實就是大家意
識到語言模型當前就是一匹馬,與其叫馬變人不如給馬上鞍具駕馭他的安全性。
既然是目標是要做Agent那麼怎麼樣去控制語言模型的記憶管理就很重要,當前對於大語言
模型記憶其實就是所謂的上下文管理怎麼去招回模型應該看的記憶再讓他做Action就很重要
,而且這個記憶通常是連續多輪的長上下文。
回到正文,這次DeepSeek V4帶出來的東西就是Token efficiency,有效的提高token用量來
達到超長上下文,最後就是讓他能被裝進Harness Agent裡面,所以全部的優化都是直奔這
個目標,所以你可以發現DeepSeek V4論文在後訓練重點提到他們怎麼做SandBox、Agent然
後怎麼做RL、On Policy Distillation來做Agent的獎勵信用分配。同樣,你看Kimi、Qwen
的論文也是一直反覆提到,重點就是讓Agent可以落地好用能用。
然後說一下學術的現在進行式,當前Harness Engineering解決的是缺乏數據的真實世界場
景,那有沒有辦法把這些東西時時被吸收近模型裡面變成模型的養分呢?其實是有的,當前
新的進展就是Agent RL讓用戶在調用Agent的時候背後有一個模型在決定吸收什麼知識進模
型,怎麼決定把用戶稀疏的獎勵轉換成密集的信用分配給每個Token,這樣一個可持續學習
進化的系統就出來了。
更近一步的是我們能不能把語言模型的記憶模塊獨立出來變成一個可持續學習記憶、跳耀檢
索的記憶模組來結合進語言模型做Test time training,讓語言模型不靠外部文字工程做到
終身學習。這個也是很多中美先進AI實驗室在做的事情,小弟敝人也一直在做相關研究。
剩下不多說了。
差不多4講
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 101.10.156.206 (臺灣)
※ 文章網址: https://www.ptt.cc/bbs/Gossiping/M.1777512859.A.67D.html
推 mclarenjpn: 被你說了 61.228.211.62 04/30 09:37
推 priest66: ????完了我真的都聽不懂 不配活在2 42.72.3.239 04/30 09:37
→ priest66: 1世紀 42.72.3.239 04/30 09:37
推 sellgd: 2樓很不上道 通常都是推 和我想的一樣 113.61.227.52 04/30 09:43
推 acolam: 啊你都說完了 我要說啥 111.83.141.255 04/30 09:50
推 roseritter: 最後這記憶模組生出來 就等天網惹 42.77.2.225 04/30 10:00
→ gk1329: 能不能讓AI不要訓練這麽久 跟人類一樣睡覺 27.247.194.54 04/30 10:21
→ gk1329: 就好= = 27.247.194.54 04/30 10:21
推 e04bank: 真是篇好文 59.125.117.149 04/30 10:35
推 asiaking5566: 學到了 42.73.249.5 04/30 19:59