
人人都要了解Deepseek
文章平均质量分 80
echo6120
这个作者很懒,什么都没留下…
展开
-
DeepSeek-MoE的发展路线v1-->v3
moe的第一代、第二代、第三代,参数量在逐步增加,优化的粒度被逐步细化。一直被坚持的,一个是共享的一个专家。第二是细粒度切分的一个专家。在第三代里边被保留的:第一个是device limited routing,一个token它最多能被多少个device做处理,这个做了一个限制。第二个是无损的负载均衡和序列的一个负载均衡。这两块是替代了之前的专家级别的均衡,设备级别的均衡以及通信。然后同时他也丢弃了之前的一个token dropping的一个策略。原创 2025-02-20 15:22:25 · 893 阅读 · 0 评论 -
DeepSeek R1的发展路线 怎么变得这么火
但v3先用1000条人工的数据,保证高质量的数据,做一个冷启动的sft(监督微调),再去做强化学习,此时就产生了:第一阶段的强化学习,得出的模型叫deepseek-v3-RL。后面的R1并不是在这个模型上继续做,它这个模型只是一个工具,用来帮R1来做数据蒸馏的工作,就是做数据工作。用20万的推理数据,先做大量的推理,再做强化学习。1.首先基于DeepSeek v3,什么都不做,直接做大规模的强化学习RL,优化基础模型,无需监督学习(SFT)就得到了一个叫做DeepSeek-R1-Zero的模型。原创 2025-02-19 10:29:57 · 255 阅读 · 0 评论 -
DeepSeek有什么技术创新?为什么这么火
本人认为本人无晦涩难懂的知识,加入《人人都要了解DeepSeek》系列--1。原创 2025-02-11 17:27:24 · 976 阅读 · 0 评论