7G显存,训练自己的DeepSeek-R1,GRPO资源暴降80%

DeepSeek-R1自发布以来,已出现众多开源复现(Open-R1,Tiny-Zero、simpleRL-reason、Mini-R1等等),但受限于GPU条件限制,有小伙伴可能没run起来~

此刻,不用为GPU发愁,Unsloth AI黑科技来了,使用 Unsloth (GRPO) 训练自己的 R1 推理模型(附代码),增强了整个 GRPO 流程,使其使用的 VRAM 比 Hugging Face + FA2 少 80%。可以使用 Qwen2.5 (1.5B) 在仅 7GB VRAM 上重现 R1-Zero 的“顿悟时刻”:

在这里插入图片描述

GRPO + “啊哈”时刻

DeepSeek 的研究人员在使用纯强化学习 (RL) 训练 R1-Zero 时观察到了“顿悟时刻”。该模型学会了通过重新评估其初始方法延长其思考时间,而无需任何人工指导或预定义指令。
尽管仅使用 GRPO 训练了 100 步的 Phi-4,但结果已经很明显了。没有 GRPO 的模型没有思考标记,而使用 GRPO 训练的模型有思考标记并且也有正确答案。

在这里插入图片描述

这种魔力可以通过 GRPO 重现,GRPO 是一种 RL 算法,它不需要价值函数就能有效优化响应,这与依赖价值函数的近端策略优化 (PPO) 不同。

工作原理:

  • 该模型生成了多组响应。

  • 每个响应都根据正确性或由某些设定的奖励函数(而不是 LLM 奖励模型)创建的其他指标进行评分。

  • 计算该组的平均分数。

  • 每个回答的分数都会与组平均分数进行比较。

  • 该模型得到强化,以支持得分更高的反应。

举个例子,假设我们想要一个模型来解决:

1+1 等于多少?>> 思路/计算 >> 答案是 2。

2 +2 等于多少?>> 思路/计算 >> 答案是 4。

最初,必须收集大量数据来填补计算/思考流程。但 GRPO(DeepSeek 使用的算法)或其他 RL 算法可以引导模型自动展示推理能力并创建推理轨迹。相反,需要创建好的奖励函数或验证器。例如,如果它得到了正确的答案,就给它 1 分。如果有些单词拼写错误,就减 0.1 分。等等!可以提供很多函数来奖励这个过程。

Unsloth 中的 GRPO

等待至少 300 步,奖励才会真正增加,请使用最新版本的 vLLM。Unsloth在 Colab 上的示例只训练了一个小时,因此结果低于标准。为了获得良好的结果,需要训练至少 12 个小时

这是建议将 GRPO 应用于至少有 1.5B 参数的模型,以正确生成思考标记,因为较小的模型可能无法做到这一点。如果使用的是基础模型,请确保有一个聊天模板。GRPO 的训练损失跟踪现在直接内置在 Unsloth 中,无需使用 wandb 等外部工具

在这里插入图片描述

除了添加 GRPO 支持外,随后还支持在线 DPO、PPO 和 RLOO!

比较 Unsloth 的在线 DPO VRAM 消耗与标准 Hugging Face + FA2

在这里插入图片描述

https://unsloth.ai/blog/r1-reasoning
https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/Llama3.1_(8B)-GRPO.ipynb

如何系统学习掌握AI大模型?

AI大模型作为人工智能领域的重要技术突破,正成为推动各行各业创新和转型的关键力量。抓住AI大模型的风口,掌握AI大模型的知识和技能将变得越来越重要。

学习AI大模型是一个系统的过程,需要从基础开始,逐步深入到更高级的技术。

这里给大家精心整理了一份全面的AI大模型学习资源,包括:AI大模型全套学习路线图(从入门到实战)、精品AI大模型学习书籍手册、视频教程、实战学习、面试题等,资料免费分享

在这里插入图片描述

1. 成长路线图&学习规划

要学习一门新的技术,作为新手一定要先学习成长路线图方向不对,努力白费

这里,我们为新手和想要进一步提升的专业人士准备了一份详细的学习成长路线图和规划。可以说是最科学最系统的学习成长路线。
在这里插入图片描述

2. 大模型经典PDF书籍

书籍和学习文档资料是学习大模型过程中必不可少的,我们精选了一系列深入探讨大模型技术的书籍和学习文档,它们由领域内的顶尖专家撰写,内容全面、深入、详尽,为你学习大模型提供坚实的理论基础(书籍含电子版PDF)

在这里插入图片描述

3. 大模型视频教程

对于很多自学或者没有基础的同学来说,书籍这些纯文字类的学习教材会觉得比较晦涩难以理解,因此,我们提供了丰富的大模型视频教程,以动态、形象的方式展示技术概念,帮助你更快、更轻松地掌握核心知识

在这里插入图片描述

4. 2024行业报告

行业分析主要包括对不同行业的现状、趋势、问题、机会等进行系统地调研和评估,以了解哪些行业更适合引入大模型的技术和应用,以及在哪些方面可以发挥大模型的优势。

在这里插入图片描述

5. 大模型项目实战

学以致用 ,当你的理论知识积累到一定程度,就需要通过项目实战,在实际操作中检验和巩固你所学到的知识,同时为你找工作和职业发展打下坚实的基础。

在这里插入图片描述

6. 大模型面试题

面试不仅是技术的较量,更需要充分的准备。

在你已经掌握了大模型技术之后,就需要开始准备面试,我们将提供精心整理的大模型面试题库,涵盖当前面试中可能遇到的各种技术问题,让你在面试中游刃有余。

在这里插入图片描述

全套的AI大模型学习资源已经整理打包,有需要的小伙伴可以微信扫描下方优快云官方认证二维码,免费领取【保证100%免费

在这里插入图片描述

<think>嗯,用户想在Docker环境中微调DeepSeek-R1-32B模型。首先,我需要回忆一下相关的步骤和可能遇到的问题。根据引用[3],用户需要先安装Docker,所以第一步应该是确认Docker环境是否正确安装并运行。然后,可能需要拉取适合的Docker镜像,比如PyTorch或者CUDA相关的镜像,因为深度学习模型通常需要GPU支持。 接下来,用户需要准备微调所需的代码和依赖。引用[5]提到了使用Colossal-AI的启动脚本,里面包含了一些参数,比如--nproc_per_node和--master_port,这可能涉及到分布式训练。所以,Docker容器需要配置好GPU支持,并且安装必要的库,比如PyTorch、Colossal-AI、Transformers等。 然后,数据准备也是关键。用户需要将训练数据挂载到Docker容器中,或者在容器内部下载。可能需要调整数据路径,确保脚本能正确访问到数据文件。 模型下载方面,引用[1]提到使用modelscope来下载模型,命令是pip install modelscope然后modelscope download --model deepseek-ai/DeepSeek-R1-Distill-Qwen-32B。所以在Dockerfile或者启动容器时需要安装modelscope,并执行下载命令。不过,模型文件较大,可能需要考虑容器的存储空间,或者挂载外部存储卷。 另外,微调脚本可能需要调整,比如引用[5]中的train_grpo.sh脚本,需要确保在容器内正确运行,可能需要修改路径参数,或者调整batch_size和max_length以适应容器的资源限制。用户可能需要根据自己硬件的情况调整这些参数,尤其是GPU内存。 还要考虑Docker的运行时参数,比如使用--gpus all来启用GPU,-v参数挂载本地目录到容器中,方便代码和数据的访问。例如,将本地的代码目录挂载到容器的/app下,这样在容器内可以直接运行代码。 可能遇到的问题包括CUDA版本不兼容、依赖库缺失、存储空间不足、权限问题等。需要确保Docker镜像中的CUDA版本与主机驱动兼容,并且所有必要的Python包已正确安装。另外,运行容器时可能需要--shm-size参数调整共享内存,特别是当使用多进程数据加载时。 最后,验证微调过程是否成功,可能需要运行训练脚本后检查日志,确认没有错误,并且模型损失在下。如果遇到问题,可能需要查看错误日志,逐步排查依赖或配置问题。 总结步骤应该是:安装Docker,准备镜像,配置环境,下载模型和数据,调整训练脚本,运行容器并执行训练命令。同时,参考提供的引用资料中的命令和教程,确保步骤正确。</think>### 使用 Docker 对 DeepSeek-R1-32B 模型进行微调的步骤 #### 1. **Docker 环境准备** - 安装 Docker:[下载地址](https://www.docker.com)(Windows/macOS/Linux)[^3] - 验证安装: ```bash docker --version ``` - 拉取 PyTorch 基础镜像(含 GPU 支持): ```bash docker pull pytorch/pytorch:2.3.0-cuda12.1-cudnn8-runtime ``` #### 2. **准备微调代码与依赖** - 创建本地工作目录(如 `deepseek-finetune`),包含: - 微调脚本(如 `train_grpo.py`,参考引用[5]) - 依赖文件 `requirements.txt`(需包含 `modelscope`, `colossalai`, `transformers`) - 示例 Dockerfile: ```dockerfile FROM pytorch/pytorch:2.3.0-cuda12.1-cudnn8-runtime WORKDIR /app COPY requirements.txt . RUN pip install -r requirements.txt RUN pip install modelscope RUN modelscope download --model deepseek-ai/DeepSeek-R1-Distill-Qwen-32B COPY . . ``` #### 3. **构建 Docker 镜像** ```bash docker build -t deepseek-finetune:latest . ``` #### 4. **运行容器并启动微调** ```bash docker run --gpus all --shm-size=8g -v /path/to/local/data:/app/data -it deepseek-finetune:latest \ colossalai run --nproc_per_node 8 \ --master_port 29500 \ train_grpo.py \ --pretrain_model ./sft_checkpoint \ --reward_fn medical_reward \ --kl_coeff 0.05 \ --batch_size 16 \ --max_length 3584 ``` - **关键参数说明**: - `--gpus all`:启用所有 GPU - `--shm-size=8g`:防止共享内存不足 - `-v`:挂载本地数据集到容器内 - `--nproc_per_node 8`:使用 8 个 GPU 进程(需根据实际 GPU 数量调整) #### 5. **性能优化建议** - 若 GPU 显存不足: - 低 `batch_size`(如 `--batch_size 8`) - 启用梯度累积或混合精度训练 - 参考模型性能数据:DeepSeek-R1-32B 在多数基准测试中超过 OpenAI-o1-mini[^2]
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值