前言:家人们,咱也是找到大模型的实习了,以下是我的面试准备,面完会更新一版新的,敬请期待吧!
Overview
模型 | 方法 |
---|---|
DeepSeek-R1-Zero | 纯强化学习 |
DeepSeek-R1 | 冷启动 SFT -> RL -> COT + 通用数据 SFT(80w)->全场景 RL |
蒸馏小模型 | 直接用上面的 80w 数据进行SFT |
DeepSeek-R1-Zero
完全摒弃传统的监督微调(SFT),直接通过大规模强化学习(RL)从基础模型(DeepSeek-V3-Base)训练,展示了纯 RL 驱动的推理能力涌现现象,但存在可读性差、语言混合等问题。
【纯强化学习推动的推理涌现】
无需 SFT 的 RL 路径:
- 采用 GRPO(Group Relative Policy Optimization) 算法,显著降低 RL 训练成本。
- 奖励机制设计为 准确性奖励(如数学答案匹配、代码执行验证)与 格式奖励