
火爆全球的DeepSeek系列模型
文章平均质量分 96
DeepSeekMoE、DeepSeekMath、DeepSeek V2、DeepSeek V3、DeepSeek R1
v_JULY_v
七月在线创始人兼CEO,结构之法算法之道blog之博主
展开
-
R1-Zero与R1的复现之路——从Open-Reasoner-Zero到Open R1:先后涉及规则奖励下的PPO迭代,及SFT+GRPO的复现
根据R1的GitHub可知可以看到,R1并未开源关键的训练数据和训练代码,好在如此文《复现DeepSeek V3——在V3官方代码库对MoE、MLA的推理代码之外,补充我对多token预测MTP训练代码的实现》所说,有个Open R1的开源项目,本文便基于Open R1复现正式版的R1以下是本文的编写过程。原创 2025-02-17 17:29:26 · 5150 阅读 · 0 评论 -
MTP——我对DeepSeek V3中多token预测MTP的代码实现(含对V3官方MoE、MLA推理代码的解读)
虽然我司从23年起,便逐步从教育为主转型到了科技为主,但不代表教育业务便没有了随着DeepSeek特别是R1、其次V3模型的大火,我司七月在线的大模型线上营群里一学员朋友DIFY问道:校长好,deepseek 的课程目前有多少内容啦,我想要参与学习,想请问一下关于v3和r1复现的课程有吗,不用那么大参数量,小尺寸就好实话讲,我一开始确实没咋重点考虑R1和V3复现的问题,一来,想着毕竟人家开源了,二来,即便有诸如Open R1这种复现,但效果和原装的相比还是差太多但后来有三点改变了我的看法。原创 2025-02-13 15:45:02 · 5013 阅读 · 1 评论 -
MLA实现及其推理上的十倍提速——逐行解读DeepSeek V2中多头潜在注意力MLA的源码(图、公式、代码逐一对应)
想来也是巧,最近deepseek实在是太火了,就连BAT这类大厂全部宣布接入deepseek,更不用说一系列国企、车企等各行各业的传统行业、企业都纷纷接入deepseek与此同时,也有很多公司、开发者对本地部署deepseek的诉求居高不下,我们也服务了一些B端客户,本文也提供了一些本地部署的方法结果,在网上看KTransformers资料的时候,无意中看到一篇帖子《DeepSeek-V2 高性能推理 (1):通过矩阵吸收十倍提速 MLA 算子》,让我关注到了DeepSeek-V2对MLA的实现。原创 2025-02-10 16:53:38 · 8388 阅读 · 0 评论 -
一文速览DeepSeek-R1的本地部署——可联网、可实现本地知识库问答:包括671B满血版和各个蒸馏版的部署(含单卡4090部署671B)
自从deepseek爆火以后,真是应了“人红是非多”那句话,不但遭受各种大规模攻击,即便后来挡住了大部分攻击,但海内外大量闯入deepseek官网一探究竟的网友也把他们的服务器压得不堪重负导致一提问,要么频繁显示:服务器繁忙,请稍后再试,要么回答了 但无法联网,致使我朋友圈内一些不知情的朋友说:看把媒体给能的,各种瞎吹,但其实不过尔尔..怎么办呢?在huggingface上总共有以下几种参数的deepseek R1首先,看推理框架,目前主流的大模型推理框架主要有以下四种:其次,看硬件要求,很显然,不同参数的原创 2025-02-03 15:29:02 · 66279 阅读 · 0 评论 -
一文速览推理模型DeepSeek R1:如何通过纯RL训练以比肩甚至超越OpenAI o1(含Kimi K1.5、QwQ-32B的解读)
而DeepSeek-V3和Kimi K1.5的意义在于,即便它两和OpenAI o1的实现不一致(当然,也可能很大程度上一致) 也不是很重要的事情了,因为从结果的角度出发,它两的效果比肩甚至超越o1,单这一点 就足够了。没想到,DeepSeek-V3还没解读完,DeepSeek-R1又来了,而且几乎同一时期,Kimi K1.5也来了。有意思的在它两的技术报告里,很多指标都比肩甚至超越OpenAI的o1模型。因此,本文重点解读一下它两的技术报告。原创 2025-01-21 22:52:12 · 30566 阅读 · 10 评论 -
一文通透让Meta恐慌的DeepSeek-V3:在MoE、GRPO、MLA基础上提出Multi-Token预测(含FP8训练详解)
他们的MTP策略主要旨在提高主模型的性能,因此在推理过程中,可以直接丢弃MTP模块,主模型可以独立正常运行此外,还可以重新利用这些MTP模块进行推测性解码,以进一步提高生成延迟// 待更。原创 2025-01-27 09:22:50 · 12334 阅读 · 11 评论 -
MLA——一文通透DeepSeek V2中的多头潜在注意力MLA:改进MHA,从而压缩KV缓存,提高推理速度(含让任何LLM都能用上MLA的方法)
成就本文有以下三个因素校长最近开始搞deepseek了吗?刚看了论文,没搞懂MLA那块的cache是怎么算的,我总觉得他的效果应该类似MQA才对,但是反馈是挺好的目前团队项目上的事情太多,然后近期在写那个KAN确实还没来得及看这个deepseek,我近期看下而搞之前——近几天,会先写一下它的论文解读,故本文就来了且一如既往做到,对于几乎每一个主题,都做到本博客万千读者或七月学员所说的:“还是看校长的文章好理解”,如有任何问题或任何不懂的地方,可以随时留言/评论,我会找时间尽快回复。原创 2024-08-26 21:18:39 · 32650 阅读 · 0 评论 -
一文通透GRPO——通俗理解群体相对策略优化GRPO及其代码实现:去掉价值估计,不用像PPO中复杂的GAE计算
本文的标题 最开始是《七月论文审稿GPT第3.2版和第3.5版:通过paper-review数据集分别微调Mistral、gemma》后于25年1.31日,直接改成了新的内容,标题也就变成了本文的《一文速览DeepSeekMath及GRPO:通俗理解群体相对策略优化GRPO及其代码实现(含DeepSeek-Coder的简介)》至于为何改成如今这样,在这篇文章《一文速览DeepSeekMoE:从Mixtral 8x7B到DeepSeekMoE(含DeepSeek LLM的简介)》的开头有说原因。原创 2024-03-12 17:27:33 · 11093 阅读 · 11 评论 -
一文速览DeepSeekMoE:从Mixtral 8x7B到DeepSeekMoE(含MoE架构的实现及DS LLM的简介)
本文的前两部分一开始写于2023年12.23日,当时是属于此文《从Mistral 7B到MoE模型Mixtral 8x7B的全面解析:从原理分析到代码解读》的后半部分但2025年春节期间,deepseek火爆全球,其背后的MoE架构引发大量关注,考虑到MoE模型的重要性,特把MoE相关的模型独立成此文。原创 2025-01-31 18:18:32 · 9740 阅读 · 0 评论