verl-agent 开源项目最佳实践教程

最新推荐文章于 2025-06-07 14:36:54 发布

毛彤影

最新推荐文章于 2025-06-07 14:36:54 发布

阅读量371

点赞数 4

CC 4.0 BY-SA版权

本文链接：https://blog.youkuaiyun.com/gitblog_00094/article/details/148129579

verl-agent 开源项目最佳实践教程

verl-agent verl-agent is an extension of veRL, designed for training LLM/VLM agents via RL. verl-agent is also the official code for paper "Group-in-Group Policy Optimization for LLM Agent Training" 项目地址: https://gitcode.com/gh_mirrors/ve/verl-agent

1. 项目介绍

verl-agent 是一个基于 veRL 扩展的开源项目，专为通过强化学习（RL）训练大型语言模型（LLM）的代理而设计。该项目区别于传统的将完整交互历史串联起来的方法，采用独立处理每一步的交互方式，这使得 verl-agent 非常适合长时间跨度的多轮RL训练。它提供了一系列的RL算法和丰富的代理环境，支持在视觉和文本任务中开发推理代理。

2. 项目快速启动

以下是快速启动 verl-agent 的步骤：

首先，创建一个名为 verl-agent 的conda环境，并激活它：

conda create -n verl-agent python==3.12 -y
conda activate verl-agent

接下来，安装必需的依赖项：

pip3 install torch==2.6.0 --index-url https://download.pytorch.org/whl/cu124
pip3 install flash-attn --no-build-isolation
pip3 install -e .
pip3 install vllm==0.8.2

上述命令中，-e . 表示从当前目录安装 verl-agent。

3. 应用案例和最佳实践

安装支持的环境

对于每个支持的环境，你都需要在单独的conda环境中安装和配置。以下以 ALFWorld 环境为例：

pip3 install gymnasium==0.29.1
pip3 install stable-baselines3==2.6.0
pip install alfworld
pip install thinc==8.3.4
pip install vllm==0.8.2
alfworld-download -f

运行示例

安装完环境后，你可以运行以下命令来启动一个训练示例：

# 示例命令，具体命令会根据实际环境和配置有所不同
python train.py --env ALFWorld --algorithm GiGPO

代码示例

以下是一个简化的训练循环示例：

import torch
from verl_agent import Agent, Environment

# 初始化代理和环境
agent = Agent(...)
env = Environment(...)

# 训练过程
for episode in range(num_episodes):
    state = env.reset()
    done = False
    while not done:
        action = agent.select_action(state)
        next_state, reward, done, _ = env.step(action)
        agent.step(state, action, reward, next_state, done)
        state = next_state