
DeepSeek-R1
文章平均质量分 96
主要介绍DeepSeek-R1模型涉及的相关技术原理、方法、部署和相关的开源项目。
Donvink
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
【DeepSeek-R1背后的技术】系列十四:MoE源码分析(腾讯Hunyuan大模型介绍)
混元大模型的代码其实和其他MoE模型差不多,结构比较清晰,非常适合上手。因为DeepSeek-R1没有公布模型框架的源码,我们参考腾讯开源的混元大模型进行代码分析,整体构建上应该和DeepSeek-R1差不多,可能细节上会有些不同。原创 2025-03-06 00:00:21 · 1197 阅读 · 0 评论 -
【DeepSeek-R1背后的技术】系列十三:归一化方式介绍(BatchNorm, LayerNorm, Instance Norm 和 GroupNorm)
一图秒懂四种归一化方式!原创 2025-02-27 23:57:02 · 1444 阅读 · 0 评论 -
【DeepSeek-R1背后的技术】系列十二:分词算法Tokenizer(WordPiece,Byte-Pair Encoding (BPE),Byte-level BPE(BBPE))
Tokenization(分词) 在自然语言处理(NLP)的任务中是最基本的一步,把文本内容处理为最小基本单元即token 用于后续的处理。如何把文本处理成token呢?有一系列的方法,基本思想是构建一个词表通过词表一一映射进行分词,构建合适的词表。原创 2025-02-27 23:56:39 · 2149 阅读 · 0 评论 -
【复现DeepSeek-R1之Open R1实战】系列9:有趣的现象——GRPO训练过程Loss从0开始慢慢变大
在用GRPO算法训练大模型的时候,我发现了一个很奇怪的现象:在训练过程中,Loss都是从0开始慢慢变大,最后趋于稳定。尝试了几次训练都是一样的现象。下面我们通过公式推导解释这个现象原创 2025-02-21 13:06:30 · 1216 阅读 · 0 评论 -
【DeepSeek-R1背后的技术】系列四:本地部署DeepSeek-R1,断网也能畅聊!
我们使用DeepSeek在线服务的时候,经常会遇到服务器忙的情况,非常影响体感和效率。为了解决这个问题,我们部署DeepSeek本地模型,通过Ollama提供API支持、Chatbox提供UI界面,实现断网也能使用DeepSeek!原创 2025-02-07 22:54:34 · 668 阅读 · 0 评论 -
【复现DeepSeek-R1之Open R1实战】系列8:混合精度训练、DeepSpeed、vLLM和LightEval介绍
本文继续深入了解Open R1项目中用到的相关技术,包括训练模型用到的混合精度训练(bfloat16)、DeepSpeed、vLLM,以及评估模型用到的LightEval。原创 2025-02-20 22:25:24 · 1644 阅读 · 0 评论 -
【DeepSeek-R1背后的技术】系列五:DeepSeek-R1微调指南
微调像 DeepSeek-R1 这样的大型 AI 模型可能需要大量资源,但如果我们能使用正确的工具,依然可以在消费级硬件上进行有效的训练。下面我们来探索如何使用 LoRA(低秩自适应)和 Unsloth 优化 DeepSeek-R1 微调,从而实现更快、更低成本的训练。在这篇博文中,我们将在消费级 GPU 上使用 LoRA(低秩自适应)和 Unsloth 对 DeepSeek-R1 进行微调。原创 2025-02-08 11:48:17 · 2870 阅读 · 0 评论 -
【复现DeepSeek-R1之Open R1实战】系列4:跑通GRPO!
终于配置好flash-attention依赖库了!让我们一起跑通GRPO!原创 2025-02-17 21:17:18 · 2366 阅读 · 5 评论 -
【DeepSeek-R1背后的技术】系列八:位置编码介绍(绝对位置编码、RoPE、ALiBi、YaRN)
本文主要介绍常见的绝对位置编码(sinusoidal)、旋转位置编码(Rotary Position Embedding,RoPE)、相对位置编码ALiBi(Attention with Linear Biases)以及YaRN(Yet another RoPE extensioN method)。原创 2025-02-22 20:11:55 · 2237 阅读 · 0 评论 -
【DeepSeek-R1背后的技术】系列六:思维链(CoT)
Chain-of-Thought (CoT) 是指模型在输出最后答案之前,会以自然语言的形式生成思路或推理链,使得结果对于人类更具可解释性。例如,在做一道数学题时,模型并不仅仅输出最后的数字,而是像人类自己做题一样,先写下计算或推导过程。早期在 GPT-3.5 等模型上,我们常用提示“Let’s break down the problem step by step”来引导CoT 出现。换句话说,CoT 基于将复杂问题分解为可管理的中间思想的认知策略,这些思想依次导致结论性的答案。原创 2025-02-08 16:45:36 · 9141 阅读 · 0 评论 -
【DeepSeek-R1背后的技术】系列九:MLA(Multi-Head Latent Attention,多头潜在注意力)
在传统的Transformer架构中,多头注意力(MHA)机制允许模型同时关注输入的不同部分,每个注意力头都独立地学习输入序列中的不同特征。然而,随着序列长度的增长,键值(Key-Value,KV)缓存的大小也会线性增加,这给模型带来了显著的内存负担。为解决MHA在高计算成本和KV缓存方面的局限性,DeepSeek引入了多头潜在注意力(MLA)。多头潜在注意力(MLA)采用低秩联合压缩键值技术,优化了键值(KV)矩阵,显著减少了内存消耗并提高了推理效率。原创 2025-02-22 21:15:51 · 2601 阅读 · 0 评论 -
【复现DeepSeek-R1之Open R1实战】系列7:GRPO原理介绍、训练流程和源码深度解析
本文详细介绍里GRPO的原理、流程以及详细的源码分析。原创 2025-02-20 00:06:15 · 2868 阅读 · 0 评论 -
【复现DeepSeek-R1之Open R1实战】系列1:跑通SFT(一步步操作,手把手教学)
最近DeepSeek-R1太火里,HuggingFace复现了R1,并将教程放到GitHub上里,我们趁热打铁,也来复现一下。在复现过程中,踩了很多坑,在这里记录下来,大家可以跟着一步步操作避坑。原创 2025-02-15 21:56:24 · 4283 阅读 · 10 评论 -
【DeepSeek-R1背后的技术】系列二:大模型知识蒸馏(Knowledge Distillation)
大规模语言模型(LLM)近年来在自然语言处理领域取得了巨大进步,使得人类对话和文本生成成为可能。然而,开源LLM模型由于参数规模较小,性能难以达到商业LLM的水平。知识蒸馏技术可以解决这一问题,它通过利用商业LLM的高性能,将其知识“蒸馏”(Knowledge Distillation,知识蒸馏,简称KD)到更小的开源模型中,从而实现高性能和低成本。原创 2025-02-04 23:33:52 · 3364 阅读 · 0 评论 -
【复现DeepSeek-R1之Open R1实战】系列2:没有卡也能训模型!Colab跑OpenR1(附源码)
在训模型之前,一定要记得修改配置文件 recipes/accelerate_configs/zero3.yaml。国内网络配置环境太头疼怎么办?让我们转移到Colab上去复现DeepSeek-R1吧!原创 2025-02-15 23:32:20 · 636 阅读 · 0 评论 -
【复现DeepSeek-R1之Open R1实战】系列3:基础知识介绍
本文先介绍HuggingFace的Open-R1项目,这是一个旨在系统性地重构DeepSeek-R1的数据集及其训练流程、验证paper里的成果,从而推进开源推理模型发展。通过构建Open-R1,阐明强化学习如何提升推理能力的,同时向开源社区分享可复现的项目,为未来基于这些技术开发新模型奠定基础。然后,再介绍一些大模型相关的概念和基础知识,如Tokenizer、SFT和GRPO等,便于大家深入去了解。掌握了这些基础概念和知识之后,我们再深入源码,逐行逐模块去分析,从而达到学会就能用的目的。原创 2025-02-17 21:01:33 · 1893 阅读 · 0 评论 -
【DeepSeek-R1背后的技术】系列一:混合专家模型(MoE)
模型规模是提升模型性能的关键因素之一。在有限的计算资源预算下,用更少的训练步数训练一个更大的模型,往往比用更多的步数训练一个较小的模型效果更佳。混合专家模型 (Mixed Expert Models,简称 MoEs) 的一个显著优势是能够在远少于稠密模型所需的计算资源下进行有效的预训练。这意味着在相同的计算预算条件下,可以显著扩大模型或数据集的规模。特别是在预训练阶段,与稠密模型相比,混合专家模型通常能够更快地达到相同的质量水平。那么,究竟什么是一个混合专家模型 (MoE) 呢?原创 2025-02-03 14:25:33 · 5592 阅读 · 0 评论 -
【DeepSeek-R1背后的技术】系列三:强化学习(Reinforcement Learning, RL)
强化学习(Reinforcement Learning, RL)是一种智能体在与环境互动过程中,通过试错和奖励机制学习如何达成目标的算法。在这个过程中,智能体会不断探索环境,采取行动,并根据环境反馈的奖励或惩罚调整自己的行为策略,最终学习到最优策略。因此,反复实验(trial and error)和延迟奖励(delayed reward)是强化学习最重要的两个特征。原创 2025-02-05 21:36:31 · 2603 阅读 · 2 评论 -
【DeepSeek-R1背后的技术】系列十:PEFT(参数高效微调——Adapter、Prefix Tuning、LoRA)
参数高效微调方法这么多,本文介绍几种比较有代表性的参数高效微调方法,如:适配器微调(Adapters tuning)、前缀微调(Prefix tuning)、提示词微调(Prompt tuning)、P-tuning和LoRA(Low-Rank Adaptation)。原创 2025-02-23 00:06:34 · 1783 阅读 · 0 评论 -
【复现DeepSeek-R1之Open R1实战】系列5:SFT源码逐行深度解析
本文逐行详细解读SFT源码!原创 2025-02-18 22:06:18 · 1414 阅读 · 0 评论 -
【DeepSeek-R1背后的技术】系列七:冷启动
在 AI 训练中,“冷启动”(Cold Start) 这个概念类似于刚买了一部新手机,开机后发现什么都没有,必须先安装应用、下载数据,才能正常使用。DeepSeek-R1 的训练过程也类似,如果直接用强化学习(RL)进行训练,那么 AI 一开始就会像一个“什么都不会的孩子”,不断犯错,生成一堆毫无逻辑的答案,甚至可能陷入无意义的循环。为了解决这个问题,研究人员提出了“冷启动数据”的概念,即在 AI 训练的早期阶段,先用一小批高质量的推理数据微调模型,相当于给 AI 提供一份“入门指南”。原创 2025-02-21 00:06:56 · 1568 阅读 · 0 评论 -
【复现DeepSeek-R1之Open R1实战】系列6:GRPO源码结构解析
本文详细逐行深度解读GRPO源码,这里只解析GRPO独特的部分。原创 2025-02-18 23:05:11 · 1852 阅读 · 0 评论 -
【DeepSeek-R1背后的技术】系列十一:RAG原理介绍和本地部署(DeepSeekR1+RAGFlow构建个人知识库)
RAG(Retrieval-Augmented Generation,检索增强生成) 是一种结合了信息检索技术与语言生成模型的人工智能技术,该技术通过从外部知识库中检索相关信息,并将其作为提示(Prompt)输入给大型语言模型(LLMs),以增强模型处理知识密集型任务的能力,如问答、文本摘要、内容生成等。RAG模型由Facebook AI Research(FAIR)团队于2020年首次提出,并迅速成为大模型应用中的热门方案。原创 2025-02-23 20:05:15 · 2213 阅读 · 0 评论