强化学习经典算法笔记(十八):离散动作空间REINFORCE算法
在文章强化学习经典算法笔记(七):策略梯度算法Policy Gradient中介绍了连续动作空间的Policy Gradient算法,最近需要用到离散空间的版本,遂写了个CartPole-v1上的PG代码。
相比于原来的PG,改动主要在select_action函数和update_parameters函数。在原来的版本中,由于动作是一个二维连续向量,所以动作的对数概率也是一个二维向量,动作熵也是二维向量,而CartPole环境就要做一定修改。
另外,vanilla PG真的很不稳定,跟股市波动有一拼。performance比较依赖调参的。

import argparse, math, os, sys
import numpy as np
import gym
from gym import wrappers
import matplotlib.pyplot as plt
import torch
from torch.autograd import Variable
import torch.autograd as autograd
import torch.nn.utils as utils
from torch.distributions import Categorical
import torch.nn as nn
import torch.nn.functional as F
import torch.optim as optim
parser = argparse.ArgumentParser(description='PyTorch REINFORCE example')
parser.add_argument('--env_name', type=str, default='CartPole-v1')
parser.add_argument('--gamma', type=float, default=0.98, metavar='G',
help='discount factor for reward (default: 0.99)')
parser.add_argument('--seed', type=int, default=1234, metavar='N', # 随机数种子
help='random seed (default: 123)')
parser.add_argument('--num_steps', type=int, default=1000, metavar='N', # 一个episode最长持续帧数
help='max episode length (default: 1000)')
parser.add_argument('--num_episodes', type=int, default=1000, metavar='N', # 训练episode数量
help

最低0.47元/天 解锁文章
2002

被折叠的 条评论
为什么被折叠?



