RL-Factory 开源项目最佳实践教程

最新推荐文章于 2025-05-28 19:17:33 发布

羿丹花Zea

最新推荐文章于 2025-05-28 19:17:33 发布

阅读量400

点赞数 4

CC 4.0 BY-SA版权

本文链接：https://blog.youkuaiyun.com/gitblog_00915/article/details/148218898

RL-Factory 开源项目最佳实践教程

RL-Factory Train your Agent model via our easy and efficient framework 项目地址: https://gitcode.com/gh_mirrors/rl/RL-Factory

1. 项目介绍

RL-Factory 是一个由 Simple-Efficient 团队开发的易于使用且高效的强化学习（RL）后训练框架。它旨在让用户能够专注于奖励逻辑和工具设置，以实现快速代理学习。该框架通过解耦环境和基于 RL 的后训练，提供了几个优势，包括易于设计的奖励函数、无缝的工具设置以及支持多代理扩展等。此外，RL-Factory 还包括了一些关键模块，使得训练速度能够提高两倍，并且支持持续的性能优化。

2. 项目快速启动

在开始之前，请确保您的系统中已安装了以下依赖项：

Cuda (推荐版本 12.4)
Python (推荐版本 3.10)
vllm (推荐版本 0.8.5)

以下是一个快速启动 RL-Factory 的示例：

# 安装必要依赖
pip3 install accelerate bitsandbytes datasets deepspeed==0.16.4 einops flash-attn==2.7.0.post2 isort jsonlines loralib optimum packaging peft pynvml ray[default]==2.46.0 tensorboard torch torchmetrics tqdm transformers==4.51.3 transformers_stream_generator wandb wheel
pip3 install vllm==0.8.5

# 安装 Qwen3 模型支持
pip3 install "qwen-agent[code_interpreter]"

# 安装其他相关依赖
pip3 install llama_index bs4 pymilvus infinity_client codetiming tensordict==0.6 omegaconf torchdata==0.10.0 hydra-core easydict dill python-multipart mcp

# 安装 faiss-gpu-cu12（可选，用于端到端的搜索模型训练）
pip3 install faiss-gpu-cu12

# 运行训练脚本（请根据需要修改相应的路径和参数）
bash main_grpo.sh