PreferenceTransformer 项目使用教程

最新推荐文章于 2025-01-24 03:03:48 发布

滕骅照Fitzgerald

最新推荐文章于 2025-01-24 03:03:48 发布

阅读量462

点赞数 17

CC 4.0 BY-SA版权

本文链接：https://blog.youkuaiyun.com/gitblog_00431/article/details/142810425

PreferenceTransformer 项目使用教程

PreferenceTransformer Preference Transformer: Modeling Human Preferences using Transformers for RL (ICLR2023 Accepted) 项目地址: https://gitcode.com/gh_mirrors/pr/PreferenceTransformer

1. 项目介绍

PreferenceTransformer 是一个基于 Transformer 架构的强化学习项目，专门用于建模人类偏好。该项目在 ICLR 2023 中被接受，并提供了一个官方的 Jax/Flax 实现。PreferenceTransformer 通过使用 Transformer 模型来处理非马尔可夫奖励，从而在强化学习任务中更好地模拟人类偏好。

2. 项目快速启动

2.1 环境配置

首先，确保你已经安装了必要的依赖项。以下是安装步骤：

# 创建并激活虚拟环境
conda create -y -n offline python=3.8
conda activate offline

# 升级 pip 并安装 CUDA 工具包和 cudnn
pip install --upgrade pip
conda install -y -c conda-forge cudatoolkit=11.1 cudnn=8.2.1

# 安装项目依赖
pip install -r requirements.txt

# 安装 Jax 和相关库
pip install "jax[cuda11_cudnn805]>=0.2.27" -f https://storage.googleapis.com/jax-releases/jax_cuda_releases.html
pip install protobuf==3.20.1 gym<0.24.0 distrax==0.1.2 wandb
pip install transformers

2.2 运行训练

以下是运行训练的示例代码：

# 训练奖励模型 (Preference Transfomer)
CUDA_VISIBLE_DEVICES=0 python -m JaxPref.new_preference_reward_main \
    --use_human_label True \
    --comment [experiment_name] \
    --transformer_embd_dim 256 \
    --transformer_n_layer 1 \
    --transformer_n_head 4 \
    --env [D4RL env name] \
    --logging_output_dir '/logs/pref_reward' \
    --batch_size 256 \
    --num_query [number of query] \
    --query_len 100 \
    --n_epochs 10000 \
    --skip_flag 0 \
    --seed [seed] \
    --model_type PrefTransformer