ReAgent项目使用指南：大规模推荐与优化任务的强化学习框架-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_00640/article/details/148575246

ReAgent项目使用指南：大规模推荐与优化任务的强化学习框架

ReAgent A platform for Reasoning systems (Reinforcement Learning, Contextual Bandits, etc.) 项目地址: https://gitcode.com/gh_mirrors/rea/ReAgent

项目概述

ReAgent是一个专为大规模分布式推荐和优化任务设计的强化学习框架，特别适用于没有模拟器可用的实际生产环境。该框架采用离线批处理训练方式，通过反事实策略评估(CPE)技术来评估新策略，而不需要实际部署。

核心设计理念

ReAgent的设计基于以下几个关键考虑：

离线批处理训练：在生产环境中，直接在线更新策略风险较高，采用离线训练后分批发布策略更为稳妥
反事实策略评估：通过CPE技术评估新策略效果，避免直接部署带来的风险
分布式支持：框架原生支持大规模分布式计算环境
与传统推荐系统集成：可以与现有的基于固定随机策略的推荐系统无缝集成

快速入门指南

环境准备

在使用ReAgent前，请确保已配置好Python环境并安装所有依赖项。框架主要依赖PyTorch、Spark等基础组件。

基本命令结构

ReAgent使用统一的命令行接口来执行各种任务，基本命令模式为：

./reagent/workflow/cli.py run <模块.函数> <配置文件路径>

在线训练示例（OpenAI Gym环境）

对于有模拟器的场景，可以使用在线训练方式：

export CONFIG=reagent/gym/tests/configs/cartpole/discrete_dqn_cartpole_online.yaml
./reagent/workflow/cli.py run reagent.gym.tests.test_gym.run_test $CONFIG

离线批处理训练示例

更常见的生产场景是离线批处理训练：

# 设置配置文件
export CONFIG=reagent/workflow/sample_configs/discrete_dqn_cartpole_offline.yaml

# 收集随机转换数据
./reagent/workflow/cli.py run reagent.workflow.gym_batch_rl.offline_gym_random $CONFIG

# 转换为时间线格式
./reagent/workflow/cli.py run reagent.workflow.gym_batch_rl.timeline_operator $CONFIG

# 训练模型
./reagent/workflow/cli.py run reagent.workflow.training.identify_and_train_network $CONFIG

# 评估模型
./reagent/workflow/cli.py run reagent.workflow.gym_batch_rl.evaluate_gym "$CONFIG"

详细工作流程解析

1. 数据准备阶段

在批处理强化学习中，数据收集和策略学习是解耦的。首先需要准备符合规范的数据集：

dataset = ReplayBuffer()
for epoch in range(num_episodes_for_data_batch):
    run_episode & store transitions

df = dataset.to_pandas_df()
df.to_pickle(pkl_path)

数据格式要求：

| 列名 | 类型 | 描述 | |------|------|------| | mdp_id | string | 唯一标识符 | | sequence_number | integer | 状态排序 | | state_features | map<integer,float> | 状态特征 | | action | string | 采取的动作 | | reward | float | 奖励值 | | possible_actions | list | 可能的动作列表 | | action_probability | float | 动作概率 | | ds | string | 数据集ID |

2. 数据转换处理

使用Spark将原始数据转换为时间线格式：

# 构建Spark处理包
mvn -f preprocessing/pom.xml clean package

# 清理上次运行的Spark数据
rm -Rf spark-warehouse derby.log metastore_db

# 执行转换
./reagent/workflow/cli.py run reagent.workflow.gym_batch_rl.timeline_operator $CONFIG

3. 特征归一化处理

对特征进行归一化处理，提升模型训练效果：

manager.run_feature_identification(input_table_spec)

归一化结果示例：

{
    "0": "{\"feature_type\":\"CONTINUOUS\",\"mean\":0.5675,\"stddev\":1.0}",
    "1": "{\"feature_type\":\"CONTINUOUS\",\"mean\":0.4225,\"stddev\":1.0}"
}

4. 模型训练流程

使用Petastorm的PyTorch DataLoader高效读取Parquet格式数据进行训练：

train_dataset = manager.query_data(
    input_table_spec=input_table_spec,
    sample_range=train_sample_range,
    reward_options=reward_options,
    data_fetcher=data_fetcher
)

batch_preprocessor = manager.build_batch_preprocessor(use_gpu)
data_reader = petastorm.make_batch_reader(train_dataset.parquet_url)
with DataLoader(data_reader, batch_preprocessor) as dataloader:
    for batch in dataloader:
        trainer.train(batch)

5. 模型评估方法

加载训练好的模型进行评估：

jit_model = torch.jit.load(saved_serving_module)
policy = create_predictor_policy_from_model(env, jit_model)
agent = Agent.create_for_env_with_serving_policy(env, policy=policy)

rewards = evaluate_for_n_episodes(
    n=num_eval_episodes, env=env, agent=agent, max_steps=max_steps
)