基于Huggingface TRL库使用GRPO复现DeepSeek-R1推理模型

最新推荐文章于 2025-11-11 19:52:45 发布

原创最新推荐文章于 2025-11-11 19:52:45 发布 · 375 阅读

3 ·

CC 4.0 BY-SA版权

文章标签：

#python #人工智能

大模型对齐专栏收录该内容

1 篇文章

订阅专栏

部署运行你感兴趣的模型镜像

【学习目标】

掌握推理模型数据集的结构及转换。
掌握强化学习GRPO算法以及GRPOTrainer的应用；
掌握推理模型的训练流程。

【任务描述】

2025年1月，杭州深度求索公司（DeepSeek）发布了推理模型DeepSeek-R1，让推理模型的关注度快速的飙升，学术圈也掀起一股复现DeepSeek-R1的浪潮。李飞飞等斯坦福大学和华盛顿大学的研究人员以不到50美元的云计算费用，成功训练出了一个名为s1的人工智能推理模型。该模型在数学和编码能力测试中的表现，据称与OpenAI-o1和DeepSeek-R1等尖端推理模型不相上下。当然DeepSeek-R1的火热还是有其本质原因的：比如创新的强化学习GRPO、MoE/MLA/MTP、高性能低成本、开源等。

本任务要求在低成本条件下，基于Qwen基座模型，使用OpenAI的GSM8K数据集（一个包含8,500道左右高质量的小学数学题），使用强化学习GRPO复现类似DeepSeek-R1的推理模型。最终模型推理类似下图右侧部分所示：

使用Huggingface TRL库基于GRPO复现DeepSeek-R1推理模型

您可能感兴趣的与本文相关的镜像

Qwen3-8B

文本生成

Qwen3

Qwen3 是 Qwen 系列中的最新一代大型语言模型，提供了一整套密集型和专家混合（MoE）模型。基于广泛的训练，Qwen3 在推理、指令执行、代理能力和多语言支持方面取得了突破性进展

关注博主即可阅读全文

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

智驭导师授AI

关注关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
打赏
打赏
打赏举报

举报

专栏目录

详解trl中的GRPOTrainer和GRPOConfig

xiezhipu的博客

04-20

755

GRPO是一种基于组内相对优势比较分组采样：对同一提示（prompt）生成多条回答（completions）形成组（group）。奖励归一化：计算组内回答的归一化奖励，避免依赖显式价值函数（Critic Model）。KL正则化：引入KL散度惩罚项，防止策略模型（Policy Model）过度偏离参考模型（Reference Model）。

单卡4090通过GRPO训练QWen2.5基础模型复现Deepseek-R1关键思路

强化学习曾小健

02-21

684

原创疑似地上霜2025年02月18日 22:01浙江本文在4090卡上复现如下 blog提到的训练过程，这个过程体现了的关键RL思路：原文：Train your own R1 reasoning model with Unsloth (GRPO):https://unsloth.ai/blog/r1-reasoning。

参与评论您还未登录，请先登录后发表或查看评论

最全DeepSeek关键RL算法GRPO，手把手教你从头跑通

kuokay的博客

03-12

1578

GRPO（Group Relative Policy Optimization）是 DeepSeek-R1 成功的基础技术之一。简单来说，GRPO 算法丢弃了 critic model，放弃了价值函数近似，转而通过组内样本的相对比较来计算策略梯度，从而有效降低了训练的不稳定性，同时提高了学习效率。既然 GRPO 如此有效，那么，你知道如何从头开始实现 GRPO 吗？

TRL里面GRPOTrainer中grpo_train.py文件详解

阿正的梦工坊

02-22

4103

GRPOTrainer

【免费下载】使用TRL库实现GRPO强化学习算法详解

最新发布

gitblog_00119的博客

11-11

996

在自然语言处理领域，强化学习(RL)已成为优化语言模型生成质量的重要方法。本文将深入讲解如何在TRL(Transformer Reinforcement Learning)库中实现Group Relative Policy Optimization(GRPO)算法，这是一种基于分组的相对策略优化方法。 ## GRPO算法核心概念 GRPO是一种创新的强化学习算法，它通过以下机制优化语言模型：

HuggingFace课程：深入理解DeepSeekMath中的GRPO算法

gitblog_00042的博客

11-11

629

在强化学习领域，Group Relative Policy Optimization（GRPO）是一种创新的策略优化方法，特别适用于数学推理等可验证任务。本文将深入解析GRPO的核心原理、算法实现及其在DeepSeekMath项目中的应用。 ## GRPO概述 GRPO的核心思想是通过比较同一问题下模型生成的多个响应来优化策略模型，而不是像传统方法那样训练单独的价值模型（Critic）。这种方

基于trl复现DeepSeek-R1的GRPO训练过程

ybdesire的专栏

03-01

4940

本文讲解了借助trl对Qwen2.5-0.5B-Instruct做GRPO的强化学习训练（DeepSeek）的过程，包括数据、数据处理、reward函数定义、训练前后的模型输出差异。

Open-R1：Deepseek-R1复现项目（包含SFT阶段、GRPO阶段代码详解）

sherlockMa的博客

02-07

1万+

DeepSeek-R1的意义在于其通过创新的训练方法和技术突破，为大型语言模型（LLMs）在推理能力、训练效率和成本控制等方面树立了新的标杆。其采用的多阶段训练策略，结合冷启动数据微调、强化学习（RL）和监督微调（SFT），不仅显著提升了模型在复杂推理任务中的表现，还解决了传统单阶段训练方法难以克服的挑战。DeepSeek-R1的训练过程证明了强化学习可以有效提升模型的推理能力，同时其创新的GRPO算法大幅降低了训练成本，使得高性能推理模型的开发更加高效和经济。

深度学习：基于Qwen复现DeepSeek R1的推理能力

Landy_Jay的博客

02-15

2422

相对优势衡量某个答案相对于其他答案的偏好程度。

一个demo来手把手复现DeepSeek R1

爱吃火锅的博客

02-10

1559

关于其技术报告，笔者之前已经简单介绍过一次，感兴趣的小伙伴可以穿梭或者可以随便搜索其他博主的解读查漏补缺，现在网上已经有很多很好的解读了，总之多看看，会有不同的理解。之前是理论学习，今天我们就实际动手来训练一下，具体来说我们只关注最吸引人的一块：强化学习。关于目前市面上的公开复现也已经有很多了，比如：笔者本次基于的是huggface的open-r1，其底层用的是trl库，不过open-r1官方的复现demo是MATH-lighteval，其中很多人没有复现出来。

(小白0基础) 微调deepseek-8b模型参数详解以及全流程——训练篇

qq_43025083的博客

04-15

1511

deepseek微调

使用 TRL 中的 GRPO 进行 LLM 推理的后训练

专注学习，坚持分享

07-10

1563

本文介绍了使用群体相对策略优化(GRPO)对大型语言模型进行后训练的方法。GRPO是一种强化学习技术，特别适用于解决需要扩展推理的复杂任务如数学问题。文章详细展示了从安装依赖、加载数据集到模型训练的全过程，使用Qwen2-0.5B-Instruct作为基线模型，并配置LoRA进行高效微调。通过定义格式奖励和准确性奖励函数，指导模型生成带有<think>和<answer>标签的结构化推理过程。实验结果表明，该方法能有效提升模型的推理能力，尽管受限于模型规模和训练数据量，但展现了良好的应

研读trl/grpo_trainer.py深度理解GRPO思想

AI人工智能的学习之路

02-14

3325

........该采样器的作用是将数据集的索引重复次，以保证每个提示能在多个进程中重复出现，从而确保相同的提示被分配到不同的 GPU 上，进而正确计算和归一化每个提示组内的奖励。类继承自，用于实现 GRPO 训练方法。此方法源自论文。..."""GRPOConfig类是为设计的配置类，用于管理与 GRPO 训练相关的各种参数。它继承自，这意味着它可以使用库中训练参数的基本配置，并在此基础上扩展特定于 GRPO 训练的参数。

trl-强化学习训练-grpo训练为例

weixin_40777649的博客

02-16

3067

1.trl + lora+ transformers 训练模型2.部署与预测3.模型合并4.vllm 部署4. 代码讲解5. trl 训练器参数讲解。

DeepSeek用的GRPO占用大量内存？有人给出了些破解方法

weixin_40920183的博客

02-08

403

来源：机器之心RTX 3080 移动版能训练哪种大模型？本文为那些 GPU 资源有限时使用 GRPO 训练的开发者提供了宝贵的指导。自 DeepSeek-R1 发布以来，群组相对策略优化（GRPO）因其有效性和易于训练而成为大型语言模型强化学习的热门话题。R1 论文展示了如何使用 GRPO 从遵循 LLM（DeepSeek-v3）的基本指令转变为推理模型（DeepSeek-R1）。GRPO 是一种...

deepseek GRPO算法保姆级讲解(数学原理+源码解析+案例实战)

spatial_coder的博客

03-16

9303

GRPO（Groupwise relative policy optimization）群组相对策略优化是deepseek提出的一种RLHF(基于人类反馈的强化学习)技术。首次提出是在DeepSeekMath中，RL被证明在SFT阶段后能有效提升LLM的数学推理能力。在GRPO提出之前，有两种流行的RLHF技术被广泛用于大模型的对齐过程中，分别是PPO和DPO。

一文通透GRPO——通俗理解“群体相对策略优化”：去掉价值估计，不用像PPO中复杂的GAE计算(含代码实现)

热门推荐

结构之法算法之道

03-12

2万+

本文的标题最开始是《七月论文审稿GPT第3.2版和第3.5版：通过paper-review数据集分别微调Mistral、gemma》后于25年1.31日，直接改成了新的内容，标题也就变成了本文的《一文速览DeepSeekMath及GRPO：通俗理解群体相对策略优化GRPO及其代码实现(含DeepSeek-Coder的简介)》至于为何改成如今这样，在这篇文章《一文速览DeepSeekMoE：从Mixtral 8x7B到DeepSeekMoE(含DeepSeek LLM的简介)》的开头有说原因。

实战LLM强化学习——使用GRPO（DeepSeek R1出圈算法）

qq_38961840的博客

01-29

8273

使用Unsloth库、LoRa微调及GRPO Trainer自定义奖励函数实现大模型的强化学习微调，实战案例。

使用unsloth微调deepseek-r1-8B模型，给出完整代码

02-23

<think>好的，用户想要使用unsloth来微调deepseek-r1-8B模型，并希望得到完整的代码。首先，我需要确认unsloth是否支持这个模型。unsloth主要用于优化微调过程，比如减少内存占用和加快训练速度，通常与Hugging Face的transformers库结合使用。deepseek-r1-8B可能是一个基于类似LLaMA架构的模型，所以可能需要检查是否支持。接下来，用户可能需要代码示例，包括数据准备、模型加载、训练配置、训练过程和保存模型。需要确保步骤完整，例如安装必要的库，加载数据集，使用正确的模型名称，设置训练参数如batch size、learning rate等，以及处理可能的内存问题，比如使用4位量化。另外，用户可能对数据格式有疑问，所以需要提供一个示例数据集的结构，比如alpaca格式。还要注意可能出现的错误，比如OOM（内存不足），这时候可能需要调整batch size或者使用梯度累积。需要提醒用户替换数据集路径，并根据硬件调整参数，比如device_map和dtype设置。最后，保存模型并演示如何加载使用，确保代码的可运行性。可能还需要验证代码的准确性，比如检查unsloth的最新文档，确认支持的模型类型，以及是否有额外的参数需要注意。同时，确保训练器的设置正确，比如使用Seq2SeqTrainer，因为可能是生成任务。总结：步骤包括安装库、准备数据、加载模型和分词器、配置训练参数、训练、保存模型。需要注意模型兼容性、硬件限制和参数调整，确保用户能顺利运行代码。</think>以下是一个使用Unsloth微调DeepSeek-R1-8B模型的完整代码示例。请注意根据您的硬件调整参数（如batch_size、gradient_accumulation_steps等）： ```python # 首先安装必要库（建议使用Python 3.10+） # pip install "unsloth[colab] @ git+https://github.com/unslothai/unsloth.git" # pip install --no-deps "xformers<0.26.0" trl peft accelerate datasets bitsandbytes import torch from unsloth import FastLanguageModel from datasets import load_dataset from trl import SFTTrainer from transformers import TrainingArguments # 参数配置 max_seq_length = 2048 # 根据GPU内存调整 dtype = None # None自动检测，或指定为torch.float16/torch.bfloat16 load_in_4bit = True # 使用4位量化节省内存 # 加载DeepSeek-R1-8B模型 model, tokenizer = FastLanguageModel.from_pretrained( model_name = "deepseek-ai/deepseek-llm-7b-r1", # 确认HuggingFace模型名称 max_seq_length = max_seq_length, dtype = dtype, load_in_4bit = load_in_4bit, ) # 添加LoRA适配器（可选） model = FastLanguageModel.get_peft_model( model, r=16, # LoRA秩 target_modules=["q_proj", "k_proj", "v_proj", "o_proj", "gate_proj"], # 常见目标模块 lora_alpha=16, lora_dropout=0, bias="none", use_gradient_checkpointing=True, ) # 准备数据集（示例使用Alpaca格式） dataset = load_dataset("yahma/alpaca-cleaned", split="train") dataset = dataset.map(lambda sample: { "text": f"""Below is an instruction that describes a task. Write a response that appropriately completes the request. ### Instruction: {sample['instruction']} ### Input: {sample['input']} ### Response: {sample['output']}""" }) # 训练参数配置 trainer = SFTTrainer( model = model, tokenizer = tokenizer, train_dataset = dataset, dataset_text_field = "text", max_seq_length = max_seq_length, dataset_num_proc = 2, packing = True, # 序列打包提高效率 args = TrainingArguments( per_device_train_batch_size = 2, gradient_accumulation_steps = 4, warmup_steps = 5, num_train_epochs = 3, learning_rate = 2e-5, fp16 = not torch.cuda.is_bf16_supported(), bf16 = torch.cuda.is_bf16_supported(), logging_steps = 1, optim = "adamw_8bit", weight_decay = 0.01, lr_scheduler_type = "linear", seed = 3407, output_dir = "outputs", save_strategy="steps", save_steps=500, ), ) # 执行训练 trainer.train() # 保存微调后的模型 model.save_pretrained("lora_adapter") # 保存LoRA适配器 # model.push_to_hub("your_username/model_name") # 可选：上传到HuggingFace Hub # 使用微调后的模型生成文本 inputs = tokenizer( ["### Instruction:\nExplain deep learning in 3 sentences\n\n### Response:"], return_tensors="pt" ).to("cuda") outputs = model.generate(**inputs, max_new_tokens=128) print(tokenizer.decode(outputs[0], skip_special_tokens=True)) ``` 注意事项： 1. 硬件要求：至少需要24GB显存（建议A100/A6000等） 2. 数据集：示例使用Alpaca格式，请替换为您的实际数据集 3. 模型名称：请确认HuggingFace上的准确模型名称 4. 内存优化：如遇OOM错误，可以尝试： - 降低`per_device_train_batch_size` - 增加`gradient_accumulation_steps` - 使用`load_in_4bit=True` - 减小`max_seq_length` 建议在微调前： 1. 检查CUDA可用性：`print(torch.cuda.is_available())` 2. 验证模型加载：`print(model)` 3. 测试基本推理：先运行生成代码确保基础模型正常工作如需完整生产级实现，建议参考： - Unsloth官方文档：https://github.com/unslothai/unsloth - DeepSeek官方微调指南：https://huggingface.co/deepseek-ai