Re: [問卦] 有鄉民看過deepseek強在哪了嗎?

作者Kazetachinu (辛普森ㄏㄏ )

看板Gossiping

標題Re: [問卦] 有鄉民看過deepseek強在哪了嗎?

時間Tue Jan 28 01:17:20 2025

在領英上看到講解的還行看得懂就看吧看不懂就算了正文：首先，文章贡献主要来自系统（Training Infra），而非模型本身。模型本身依然基于传统的Transformer： 1）他们世界首创在大规模LLM训练中系统性部署fp8（8位浮点）量化技术，这大大降低训练对显卡内存的需求，也加快了训练过程； 2）为了正确使用fp8的矩阵乘法，他们优化并改进了CUDA Kernal的调用方式，甚至给NVDA提出了诸多Tensor Core方面的设计建议 3）他们开发了自己的训练框架DualPipe，实现了16/64通道的流水线和专家（MOE）并行，极大改善了并行训练中的通信和计算冲突问题，解决了调度瓶颈。最终，DeepSeek实现了在2048个H800上的集群训练。其次，文章中大部分改进是渐进式的，而非革命性的： 1）上下文拓展实际上来自2023年文章YaRN；在MTP方面，最终DeepSeek V3只实现了N=1的MTP，也即比传统的GPT多预测一个词； 2）MOE所引入的Aux-Loss-Free Load Balancing技术，其实仅仅是在传统Expert的分配算法 3）DeepSeek MOE上的另一个革新是加入了“共享Expert”，并保证训练时对于每个Token， 4）其独创的Multihead Latent Attention 本质上是将QKV通过线性变换降维到一个Latent 5）利用自己在量化交易中的经验，创造性地将某些移动平均值（如Adam参数状态）存在CPU 当然，能够将如此多新的细节整合在一起，并获得一个几乎没有任何Loss Spike的平滑的训最后，DeepSeek 在RL和蒸馏方面确实得到了极其宝贵的经验 Deep Seek证明了： 1）推理能力可以通过RL获得， 2）推理能力可有效的被蒸馏到更小的模型上去。虽然他们也同时观察到，蒸馏可能让小模型的输出变得更长，语言效率降低。此外，如果RL 总的来说，确实是一个非常好的Paper，证明了在极限的精度和优化条件下，训练一个600B? 但不至于颠覆硅谷，是一个非常好的阶段性进展 # 他的另一篇補充：澄清一些DeepSeek里关于降本增效的概念：首先，增加训练效率的是MOE，Mixture of Experts，也就是所谓混合专家模型。他指的是模型每一个Transformer Block在最后那一层网络中，仅选择1/k的参数激活进入下一个Block。这导致对于每一个token来说，一个600B的模型仅需激活了接近37B的权重，相当于每一个token的训练可以节省约80%算力，大大提高了训练速度。其次，增加推理速度的是MLA，Multihead Latent Attention，多头隐空间注意力机制。名字很玄乎，本质就是通过一些矩阵把注意力机制中最关键的KQV三个矩阵投影到更低维的空间（隐空间）中，以便存在缓存中。这样每次推理的时候就不需要重新计算大大增加了推理速度这两个技术都不能说是颠覆性的。但DeepSeek都做了自己的改进，而且调通了这就是他最厉害的地方这两个重要概念，在DeepSeek V3 paper的第一页就有当然更关键的是fp8，也就是8位浮点量化运算。之前推文介绍过了。是fp8从训练所需空间上限决定了，这个模型可以用2048个H800训练。每个fp8相比fp16能节约50%空间，相比fp32 节约75%。矩阵乘法的运算速度甚至是按平方提升。 # 連結： https://reurl.cc/oV67e5 # 小心得： ds發布前幾天組上老哥碩論預口內容提到也做了fp8量化然後只說效果不好就沒下文結果人家大成功哈哈不知道他口試那天會不會被電 ----- Sent from JPTT on my iPhone -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 80.113.117.144 (荷蘭) ※ 文章網址: https://www.ptt.cc/bbs/Gossiping/M.1737998244.A.F75.html

推 twmacaron: 彎腰撿鑽石的機會來了 123.192.176.21 01/28 01:18

推 StylishTrade: 8bit乘法就能跑了喔? 1.163.100.114 01/28 01:18

※ 編輯: Kazetachinu (80.113.117.144 荷蘭), 01/28/2025 01:20:37

推 uiorefd: 碩論那位老兄還好嗎 220.134.66.178 01/28 01:36

推 a1e: 如果是用fp8那很不得了，這代表他根本不用太 61.224.108.33 01/28 03:06

→ a1e: 高性能的gpu就能動作，對大陸來說這非常有利 61.224.108.33 01/28 03:06