Datawhale | DeepSeek R1 最新全面综述,近两个月的深度思考(建议收藏!)

本文来源公众号“Datawhale”,仅用于学术分享,侵权删,干货满满。

原文链接:DeepSeek R1 最新全面综述,近两个月的深度思考!

本文是《2025 iFLYTEK 开发者TALK 杭州站《DeepSeek深度技术解析》分享的文字版。由于时间关系,实际分享是本文的简化版。文字内容是近半个月陆陆续续记录的一些阅读笔记和思考,中途接到分享邀请(还好有点积累,不然怕是难顶doge),成稿于分享后。

分享PPT:

https://github.com/datawhalechina/hugging-llm/tree/main/resources

距离2022年底ChatGPT发布开启LLM时代才过去两年多一点时间,刚进入2025年,DeepSeek-R1就将LLM真正推向了深度思考时代。

两年多的高速发展,前所未有的按周迭代,如今想来都一阵恍惚。2023年是LLM最快速发展的一年,被称为LLM元年,新的开发范式出现(感兴趣的读者可以关注HuggingLLM(https://github.com/datawhalechina/hugging-llm)),全民AI浪潮涌现。2024年,基于LLM的应用已经开始成熟,Agent百花齐放,进入元年,各种应用层出不穷,一个人公司成为可能。

当我们以为LLM基本就这样按部就班向”应用“时,R1出现了,它发迹于OpenAI-o1,但超越了o1。关于o1,我的观点和OpenAI前首席研究官Bob的观点一致:它的目标是解决复杂问题,大多数人日常工作中并不会遇到需要o1的需求(可以参考关于AI前沿的思考(https://yam.gift/2024/12/20/NLP/2024-12-20-Think-About-AI-and-Related/))。但是R1提升了LLM的整体能力,让模型真正在推理时进行自我反思和验证,这当然适用于复杂问题,但日常工作很多场景也能受益,AI更加像人。我觉得这是R1对整个行业的贡献,其作用不亚于ChatGPT的发布。

DeepSeek-R1:LLM进入深度思考时代

首先,我们来解读R1的论文,这篇论文本身不复杂,条理很清晰。论文核心内容可以概括为三个部分:R1-Zero、R1和蒸馏。各部分都可以简单概括为一句话。

  • R1-Zero=Pretrain(DeepSeek-V3-Base)+RL(GRPO),证明Pure Rule 的 RL也有效,表现出自我验证、反思、和生成长COT的能力。但有可读性差、语言混合问题。

  • R1=Pretrain+Cold-Start(SFT)+RL(提升推理能力)+生成数据和SFT监督数据微调Base(SFT)+RL(对齐),先提升推理能力,搞出数据,再提升LLM整体能力。

  • 蒸馏=R1数据+学生模型SFT。蒸馏>RL,R1数据SFT的小模型能力得到提升,且优于强化学习+小模型。

真是再次证明了”数据决定上限,算法逼近上限“,也重新定义了什么叫”高质量数据“。

R1-Zero:RL的潜力

纯RL,基于规则,没有监督数据。

GRPO

放弃了通常与policy模型大小相同的critic模型,从群体分数来估计基线。具体来说,对每个q,GRPO从旧的policy采样一组输出,然后通过下面的目标函数优化policy。

其中,𝜀 和 𝛽 是超参,Ai是advantage,如下。

GRPO相比PPO要简单,但更重要的是它有效。

RM

基于规则,没有ORM或PRM!包括精度奖励和格式奖励(把思考过程放在<think></think>之间)两种规则。

这真是振奋人心的发现!我个人对强化学习(以及基于规则)的执念已经很久了(可以追溯到2018年),之前很多次提到过(见后面附录1相关文章),也做过一些尝试,但一直没有取得很好的成果。看到R1论文的第一反应是不可能吧?自己跟着复现后真的是震惊到了,太漂亮了。

数据构造

训练数据基于如下模板构造:

A conversation between User and Assistant. The user asks a question, and the Assistant solves it. The assistant first thinks about the reasoning process in the mind and then provides the user with the answer. The reasoning process and answer are enclosed within <think> </think> and <answer> </answer> tags, respectively, i.e., <think> reasoning process here </think> <answer> answer here </answer>. User: prompt. Assistant:

其中的prompt就是相应的问题。这里有意将约束限制在这种结构格式上是为了避免任何特定于内容的偏差,如强制反射性推理或促进特定的问题解决策略,确保能够准确观察到模型在强化学习过程中的自然进展。

上面的模板是Base模型,Instruct模型也是类似的。

结果

非常漂亮的曲线,非常Nice的表现!而且,实际中还可以通过多数投票进一步提升性能,如红色曲线所示。

Self-evolution

然后是过程中表现出来的自我进化,它最引人注目的方面之一是随着推理时计算的增加,出现了复杂的行为。诸如反思(重新审视和重新评估先前的步骤)和探索解决问题的替代方法等行为。这些行为是自发产生的,是模型与强化学习环境交互的结果,而不是明确编程的、外部调整的结果。

Aha Moment

接下来是很多人津津乐道的Aha Moment,其实就是模型自动学习重新评估、检查或验证,即自我反思和错误修正,有点类似”恍然大悟“。它显示出强化学习的神奇之处:

### DeepSeek R1深度思考特性及其应用 DeepSeek R1 是一种先进的大型语言模型,其设计旨在通过特定配置实现高效的推理能力。为了激活这一功能,在使用过程中应当将 `model` 参数设定为 `deepseek-reasoner`[^1]。 #### 深度思考特性的技术基础 该模型不仅依赖于传统的自然语言处理机制,还融合了强化学习方法来优化性能表现。特别是,“自我回放”(Self-Play) 技术的应用使得系统能够在模拟环境中不断迭代改进自身的策略和决策过程[^2]。这种持续的学习方式有助于提升模型解决复杂问题的能力,并增强其适应不同应用场景下的灵活性。 #### 安全性和隐私保护措施 值得注意的是,在涉及敏感信息处理的任务中,过度展示内部工作流程可能会带来安全隐患。因此,针对某些特殊领域内的应用案例,采取适当的安全防护手段至关重要。例如,当面对包含机密逻辑、专有算法或是个人隐私的数据时,需谨慎控制对外公开的信息量以及具体的推理路径。 #### 实际应用场景举例 考虑到上述特点,以下是几个适合利用 DeepSeek R1 进行深入分析的实际例子: - **金融风险评估**:借助强大的数据分析能力和精准的风险预测模型帮助企业识别潜在的投资机会并规避不必要的财务损失。 ```python def financial_risk_assessment(data): model = "deepseek-reasoner" result = deepseek_api_call(model, data) return interpret_results(result) ``` - **医疗诊断辅助工具开发**:支持医生基于大量临床资料做出更加科学合理的诊疗建议,提高医疗服务质量和效率的同时保障患者信息安全。 - **法律咨询服务自动化平台构建**:协助律师快速检索相关法律法规条文及判例,提供专业的法律顾问服务而不泄露任何未授权披露的内容。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值