DeepSeek R1:掀起科技界风暴的全新大模型 |
文章目录
O、DeepSeek-R1官方介绍(Github)
1. 引言
- 我们推出了第一代推理模型 DeepSeek-R1-Zero 和 DeepSeek-R1。DeepSeek-R1-Zero 通过大规模强化学习(reinforcement learning, RL)训练完成,且在训练初期未使用监督微调(SFT)。尽管如此,该模型在推理能力方面表现出色。在强化学习的过程中,DeepSeek-R1-Zero 自然地涌现出许多强大且有趣的推理行为。然而,该模型也存在一些问题,如重复循环、可读性较差和语言混杂等。
- 为了解决这些问题并进一步提升推理能力,我们推出了 DeepSeek-R1。在 RL 之前,我们引入了冷启动数据,使得