作者sxy67230 (charlesgg)
看板Gossiping
標題Re: [問卦] Deepseek是不是真的不行了?
時間Sat Jun 7 10:04:38 2025
阿肥外商碼農阿肥啦!
這邊說一下目前產學界一些比較新的研究,可以從一些方向捕捉DeepSeek研究團隊想從事的
研究方面。
1. Self-Evolution: 當前包含Google Deepmind很多研究都逐漸走向當我們有一個能力不錯
的大模型要怎麼去讓LLM自我進化。過往訓練Reasoning或是RLFH哪怕是說真的無標其實都還
是需要一個接受過人為標籤訓練的獎勵模型來評判LLM的生成到底是好是壞。
但是2025前半年蠻多所謂的零標籤的訓練範式已經開始成熟,所謂的零標籤就是直接讓模型
生成多決策就像人腦我們可能會想出很多的策略,然後直接讓決策給LLM做共識決去直接接
受環境評價(無需要再一個經過人類價值灌輸的獎勵模型或是去像DeepSeek的GRPO一樣要人
為定義獎勵機制)。這樣根據研究發現模型是可以進一步迭代出更好的版本,也就是真正的
Alpha-Zero-LLM。
這個進一步延伸就是達爾文-哥德爾機,核心理念就是所有的進化在還沒有經歷過環境篩選
都是有用的,經歷過環境篩選不一定是最優模型而是只要訓練出最適應環境的機器就好。
2. KV Cache碎片化緩存: 這算是比較system architecture 層級的問題。隨著語言模型的
發展,很多時候就算你做了cache compression 還是會發現LLM能處理超長上下文的能力有
限。除了更改模型的Rotary或加入sliding window外,另一個思路是讓語言模型的KV cache
碎片化需要時再進行檢索,就像人類記憶也是採用跳躍碎片化檢索的能力一樣。而且因為機
器跟人腦不一樣的是可以大規模分散式部署,所以可以把記憶碎片分散在不同的節點上需要
再重組成完整片段記憶。
除此之外,今年上半年很多都是SLM(小語言模型)跟機器人(Embodies AI)的整合,讓語言
模型能突破人類語料接受真正物理世界的數據的時候進化才能真正開始。另外還有一些是想
突破Auto Regression 的架構採用擴散模型的方法也是一個值得期待的關注方向。
我感覺DeepSeek有可能會在R2上嘗試一些新的論文的方向,還有他們上週那篇ESFT(高效微
調專家模塊)也是蠻值得參考的,如果想做自我進化又不想讓模型過於偏離原始能力那僅微
調專家模型的話是不是能保證自我進化不會走歪也是很有趣的實驗。
差不多是這樣
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 49.218.204.92 (臺灣)
※ 文章網址: https://www.ptt.cc/bbs/Gossiping/M.1749261880.A.2BB.html
→ killerlee: DS本來就是小粉紅自嗨用的,現實沒幾 111.82.186.165 06/07 10:06
→ killerlee: 個在用。111.82.186.165 06/07 10:07
推 s213092921: 因為DS都開放自架模型 42.77.216.86 06/07 10:07
推 yoshilin: 台灣連ds都沒有啊 101.3.48.12 06/07 10:13
推 l11111111: 一樓是不是整篇都看不懂 笑死36.230.135.121 06/07 10:15
推 ff811020: 一樓真的看不懂在哪裏亂回111.81.137.53 06/07 10:15
推 championbad: B站 知乎 一堆人在罵ds才是現實59.102.246.90 06/07 10:17
→ championbad: 反倒台灣一堆沒在用的無腦吹59.102.246.90 06/07 10:17
→ potionx: 消費者只管好不好用 便宜不便宜 111.240.67.133 06/07 10:31
→ potionx: 技術性的問題 不是消費者會關心的部分... 111.240.67.133 06/07 10:31
推 ariz283: 推 101.10.237.16 06/07 10:46
※ 編輯: sxy67230 (49.218.204.92 臺灣), 06/07/2025 11:00:49
推 cerberi: 推專業 223.140.54.143 06/07 14:25