大模型面试准备|Deepseek r1技术报告

前言:家人们,咱也是找到大模型的实习了,以下是我的面试准备,面完会更新一版新的,敬请期待吧!

Overview

模型 方法
DeepSeek-R1-Zero 纯强化学习
DeepSeek-R1 冷启动 SFT -> RL -> COT + 通用数据 SFT(80w)->全场景 RL
蒸馏小模型 直接用上面的 80w 数据进行SFT

DeepSeek-R1-Zero

完全摒弃传统的监督微调(SFT),直接通过大规模强化学习(RL)从基础模型(DeepSeek-V3-Base)训练,展示了纯 RL 驱动的推理能力涌现现象,但存在可读性差、语言混合等问题。

【纯强化学习推动的推理涌现】

无需 SFT 的 RL 路径

  • 采用 GRPO(Group Relative Policy Optimization) 算法,显著降低 RL 训练成本。
  • 奖励机制设计为 准确性奖励(如数学答案匹配、代码执行验证)与 格式奖励
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值