引言:低成本高性能的AI新范式
在2025年1月,中国AI公司DeepSeek发布了两个标志性模型——DeepSeek-R1-Zero与DeepSeek-R1,以仅600万美元的训练成本实现了与OpenAI O1系列(开发成本约5亿美元)相当的推理性能,彻底颠覆了传统大语言模型(LLM)的训练范式。这一突破的核心在于纯强化学习(RL)驱动的推理能力进化机制,以及创新的组相对策略优化(GRPO)算法。本文将深入解析这一技术革命背后的原理、实现路径及行业影响。
一、传统方法的困境与DeepSeek的破局之道
1.1 传统RLHF的局限性
传统大模型的推理能力提升主要依赖监督微调(SFT)与基于人类反馈的强化学习(RLHF),其流程包括:
- 数据收