DeepSeek专题:DeepSeek-R1核心知识点速览(附脑图)

AIGCmagic社区知识星球是国内首个以AIGC全栈技术与商业变现为主线的学习交流平台,涉及AI绘画、AI视频、大模型、AI多模态、数字人以及全行业AIGC赋能等100+应用方向。星球内部包含海量学习资源、专业问答、前沿资讯、内推招聘、AI课程、AIGC模型、AIGC数据集和源码等干货。

AIGCmagic社区知识星球

截至目前,星球内已经累积了2000+AICG时代的前沿技术、干货资源以及学习资源;涵盖了600+AIGC行业商业变现的落地实操与精华报告;完整构建了以AI绘画、AI视频、大模型、AI多模态以及数字人为核心的AIGC时代五大技术方向架构,其中包含近500万字完整的AIGC

学习资源与实践经验。


论文题目:《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》

发表时间:2025年1月

论文地址:https://arxiv.org/pdf/2501.12948v1

本文作者:AIGCmagic社区 刘一手

DeepSeek-R1是一款具有显著特点和优势的大语言模型。

它在多个方面展现出强大的能力。首先,在知识储备上极为丰富,能够广泛涉猎各类领域知识,无论是科学常识、历史文化还是专业领域的信息,都能给出准确且详细的回答。其次,语言理解和生成能力出色,能精准理解用户的提问意图,生成自然流畅、逻辑连贯的文本内容,无论是撰写文章、解答问题还是进行对话交流,都能提供高质量的输出。再者,具备一定的推理和逻辑分析能力,对于复杂的逻辑问题或需要推理的任务,能够进行合理的分析和推导,给出有价值的见解。此外,DeepSeek-R1还在持续优化和改进中,不断提升自身的性能和表现,致力于为用户提供更加优质、高效的语言服务,在众多自然语言处理应用场景中都具有较高的实用价值。


研究背景

  1. 研究问题:这篇文章要解决的问题是如何通过强化学习(RL)提升大型语言模型(LLMs)的推理能力,特别是不依赖监督微调(SFT)的情况下。
  2. 研究难点:该问题的研究难点包括:如何在没有监督数据的情况下,通过纯强化学习提升模型的推理能力;如何提高模型的可读性和减少语言混乱。
  3. 相关工作:该问题的研究相关工作包括基于过程的奖励模型、强化学习和搜索算法等方法,但这些方法在推理性能上仍未达到OpenAI的o1系列模型的水平。

研究方法

这篇论文提出了DeepSeek-R1系列模型,通过大规模强化学习和多阶段训练来提升LLMs的推理能力。具体来说,

  1. DeepSeek-R1-Zero:该模型直接在没有监督微调的情况下应用强化学习。采用Group Relative Policy Optimization(GRPO)算法进行训练,奖励模型主要包括准确性和格式奖励。训练模板要求模型先生成推理过程,再给出最终答案。

  2. DeepSeek-R1:为了解决DeepSeek-R1-Zero的可读性和语言混乱问题,引入了冷启动数据和多阶段训练管道。首先,收集数千条冷启动数据对DeepSeek-V3-Base模型进行微调。然后,进行以推理为导向的强化学习,接着通过拒绝采样和SFT生成新的SFT数据,最后再次进行强化学习。

  3. 知识蒸馏:从DeepSeek-R1中蒸馏推理能力到较小的密集模型。使用Qwen2.5和Llama系列模型作为基础模型,通过简单的SFT蒸馏方法显著提升推理能力。


实验设计

  1. 数据收集:收集数千条冷启动数据,设计可读性的输出格式,过滤掉不友好的响应。
  2. 实验设置:DeepSeek-R1-Zero的训练采用规则基础的奖励系统,DeepSeek-R1则结合准确性和语言一致性奖励。使用多种基准测试进行评估,包括MMLU、DROP、GPQA Diamond、SimpleQA等。
  3. 样本选择:从RL训练中收集推理数据,通过拒绝采样和SFT生成新的SFT数据。非推理数据包括写作、事实问答和自我认知等领域。
  4. 参数配置:设置最大生成长度为32,768个令牌,使用非零温度进行pass@1评估。

实验结果

  1. DeepSeek-R1-Zero:在AIME 2024上的pass@1得分从15.6%提升到71.0%,通过多数投票进一步提升到86.7%。在MATH-500上的pass@1得分为95.9%,接近OpenAI-o1-1217的水平。

  2. DeepSeek-R1:在AIME 2024上的pass@1得分为79.8%,在MATH-500上的pass@1得分为97.3%,与OpenAI-o1-1217持平。在Codeforces上的rating为2029,显著优于96.3%的人类参与者。

  3. 蒸馏模型:DeepSeek-R1-Distill-Qwen-7B在AIME 2024上的pass@1得分为55.5%,超过QwQ-32B-Preview。DeepSeek-R1-Distill-Qwen-32B在AIME 2024上的pass@1得分为72.6%,在MATH-500上的pass@1得分为94.3%,在LiveCodeBench上的pass@1得分为57.2%。


论文结论

这篇论文通过大规模强化学习和多阶段训练,成功提升了LLMs的推理能力。DeepSeek-R1-Zero在没有监督微调的情况下,展示了强大的推理能力。DeepSeek-R1通过引入冷启动数据和多阶段训练,进一步提高了推理性能和可读性。通过知识蒸馏,成功将推理能力迁移到较小的密集模型,显著提升了这些模型的推理能力。


论文脑图


DeepSeek-R1创新点总结

  1. 纯强化学习的突破:DeepSeek-R1-Zero是第一个通过纯强化学习(RL)而不依赖监督微调(SFT)来提升语言模型推理能力的模型,标志着在这一领域迈出了重要一步。
  2. 多阶段训练管道:提出了包含两个RL阶段和两个SFT阶段的多阶段训练管道,旨在发现改进的推理模式并符合人类偏好。
  3. 冷启动数据的利用:通过引入冷启动数据,DeepSeek-R1在初期RL训练中表现更稳定,避免了基础模型的早期不稳定问题。
  4. 推理导向的强化学习:在冷启动数据的基础上,应用大规模推理导向的RL训练,显著提升了模型的推理能力。
  5. 拒绝采样和监督微调:在推理导向的RL收敛后,通过拒绝采样生成SFT数据,并结合监督数据进行进一步微调,提升了模型在所有场景下的表现。
  6. 知识蒸馏:展示了将大模型的推理模式蒸馏到小模型的有效性,显著提升了小模型在推理任务上的表现。
  7. 开源模型:开源了DeepSeek-R1-Zero、DeepSeek-R1及其基于Qwen和Llama的六个密集模型(1.5B, 7B, 8B, 14B, 32B, 70B),促进了研究社区的进一步发展。

DeepSeek-R1关键问题解答

问题1:DeepSeek-R1-Zero模型在推理任务中的表现如何?其自我进化过程有哪些亮点?

DeepSeek-R1-Zero模型在没有监督微调的情况下,通过大规模强化学习展示出了显著的推理能力。具体来说,在AIME 2024上的pass@1得分从15.6%提升到71.0%,通过多数投票进一步提升到86.7%。在MATH-500上的pass@1得分为95.9%,接近OpenAI-o1-1217的水平。此外,DeepSeek-R1-Zero还展示出了一些令人印象深刻的自我进化行为,如自我验证、反思和生成长链的推理过程(Chain of Thought, CoT)。这些行为是自发的,而不是显式编程的,显著增强了模型的推理能力。

问题2:DeepSeek-R1模型如何解决DeepSeek-R1-Zero模型的可读性和语言混乱问题?

DeepSeek-R1模型通过引入冷启动数据和多阶段训练管道来解决DeepSeek-R1-Zero模型的可读性和语言混乱问题。首先,收集数千条冷启动数据对DeepSeek-V3-Base模型进行微调,设计可读性的输出格式,过滤掉不友好的响应。然后,进行以推理为导向的强化学习,接着通过拒绝采样和SFT生成新的SFT数据,最后再次进行强化学习。这些步骤不仅提高了模型的可读性,还减少了语言混乱现象,使得模型生成的回答更加清晰和连贯。

问题3:DeepSeek-R1模型在蒸馏过程中是如何提升较小密集模型的推理能力的?

DeepSeek-R1模型通过简单的SFT蒸馏方法显著提升较小密集模型的推理能力。具体来说,使用Qwen2.5和Llama系列模型作为基础模型,直接从DeepSeek-R1中蒸馏推理能力。蒸馏后的模型在多个推理基准测试中表现出色,例如DeepSeek-R1-Distill-Qwen-7B在AIME 2024上的pass@1得分为55.5%,超过QwQ-32B-Preview。DeepSeek-R1-Distill-Qwen-32B在AIME 2024上的pass@1得分为72.6%,在MATH-500上的pass@1得分为94.3%,在LiveCodeBench上的pass@1得分为57.2%。这些结果表明,蒸馏是一种有效的方法,可以将大模型的推理能力迁移到小模型中。


推荐阅读

AIGCmagic社区介绍:

2025年《AIGCmagic社区知识星球》五大AIGC方向全新升级!

AI多模态核心架构五部曲:

AI多模态模型架构之模态编码器:图像编码、音频编码、视频编码

AI多模态模型架构之输入投影器:LP、MLP和Cross-Attention

AI多模态模型架构之LLM主干(1):ChatGLM系列

AI多模态模型架构之LLM主干(2):Qwen系列

AI多模态模型架构之LLM主干(3):Llama系列  

AI多模态模型架构之模态生成器:Modality Generator

AI多模态实战教程:

AI多模态教程:从0到1搭建VisualGLM图文大模型案例

AI多模态教程:Mini-InternVL1.5多模态大模型实践指南

AI多模态教程:Qwen-VL升级版多模态大模型实践指南

AI多模态实战教程:面壁智能MiniCPM-V多模态大模型问答交互、llama.cpp模型量化和推理


交流社群

加入「AIGCmagic社区」,一起交流讨论:

AI视频、AI绘画、数字人、多模态、大模型、传统深度学习、自动驾驶等多个不同方向;

可私信或添加微信号:【lzz9527288】,备注不同方向邀请入群;

更多精彩内容,尽在「AIGCmagic社区」,关注了解全栈式AIGC内容!

<think>好的,我现在遇到了一个问题,输入命令`ollama show deepseek-r1:7b --modelfile`后显示错误:model 'deepseek-r1:8b' not found。我需要仔细分析这个问题,找出可能的原因和解决办法。 首先,我注意到用户输入的命令是`deepseek-r1:7b`,但错误信息里提到的是`deepseek-r1:8b`。这里版本号不一致,7b和8b,可能是用户输错了模型名称,或者Ollama在内部有某种映射或默认版本导致的问题。我需要确认模型名称是否正确。 接下来,我应该检查Ollama的官方模型库,看看是否存在`deepseek-r1:7b`这个模型。访问Ollama的官网或者使用`ollama list`命令查看本地已安装的模型列表,确认是否真的没有这个模型。如果不存在,可能需要用户拉取正确的模型名称。 另外,有可能用户在创建或拉取模型时使用了错误的标签。例如,模型可能有不同的版本标签,如`:latest`或者其他特定版本。用户可能需要指定完整的模型名称,包括正确的标签。例如,是否应该是`deepseek-r1:7b`还是`deepseek-r1`加上其他参数? 也有可能用户在尝试显示modelfile时,模型尚未正确安装或下载。需要确认是否已经成功运行了`ollama pull deepseek-r1:7b`来下载模型。如果未下载,自然无法显示其modelfile。 还有一种可能性是模型名称的大小写问题,虽然Ollama通常对大小写不敏感,但最好还是严格按照官方提供的名称来输入。例如,是否应该是`DeepSeek-R1:7b`而不是全小写? 此外,用户可能在尝试查看modelfile时,命令有误。正确的命令应该是`ollama show <model-name> --modelfile`,需要确保这里的`<model-name>`与实际安装的模型名称完全一致,包括任何可能的版本标签。 如果用户自行创建了modelfile并尝试使用,但没有正确推送或保存,也可能导致模型找不到。需要确认是否通过`ollama create`正确创建了模型,并且名称无误。 最后,可能需要检查Ollama的版本是否为最新,有时候旧版本可能不支持某些模型或存在bug。更新Ollama到最新版本可能解决问题。 总结可能的原因:模型名称错误、模型未下载、版本标签不正确、命令输入错误、Ollama版本过旧等。</think>遇到`ollama show deepseek-r1:7b --modelfile`报错**"model 'deepseek-r1:8b' not found"**时,问题通常由以下原因导致: --- ### 直接原因分析 1. **版本号不一致** 您输入的模型名称是`deepseek-r1:7b`,但报错显示`deepseek-r1:8b`。 **可能原因**: - 该模型在Ollama官方库中仅提供`8b`版本,没有`7b`版本 - 您可能混淆了模型版本(如DeepSeek其他系列有7b版本) --- ### 验证步骤 1. **检查模型是否存在** 执行以下命令查看官方模型列表: ```bash ollama list ``` 若本地未安装,尝试拉取官方模型: ```bash ollama pull deepseek-r1:8b # 注意这里是8b ``` 2. **确认官方模型名称** 访问[Ollama模型库](https://ollama.com/library),搜索`deepseek`,会发现: - 官方提供的名称为`deepseek-r1:8b`(没有`7b`版本) - 模型全称需严格匹配:`deepseek-r1:8b` --- ### 解决方案 1. **使用正确的模型名称** ```bash ollama pull deepseek-r1:8b # 先拉取模型 ollama show deepseek-r1:8b --modelfile # 显示modelfile ``` 2. **如果是自定义模型** 若您自行创建了`7b`版本模型文件,需确保: - 通过`ollama create`正确创建 - 创建时指定了完整名称(含版本号): ```bash ollama create mymodel -f ./Modelfile # 需在Modelfile中设置正确参数 ``` --- ### 扩展说明 - **版本号含义**:`7b`/`8b`代表模型参数量(70亿/80亿),不同参数量模型需独立训练和发布 - **常见同类问题**: ```bash ollama show llama3:7b-chinese # 错误写法(无此版本) ollama show llama3:8b # 正确写法 ``` 建议通过官方文档核对模型名称后再操作。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值