强化学习--策略网络--TensorFlow_强化学习策略网络参数-优快云博客

本文链接：https://blog.youkuaiyun.com/weixin_43822600/article/details/100161620

本文介绍了如何利用TensorFlow来实现策略网络，重点在于 TensorFlow 的应用及其在强化学习中的策略网络构建过程。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

TensorFlow 实现策略网络

#baseline
import tensorflow as tf
import numpy as np
import gym
env = gym.make('CartPole-v0')
env.reset()
random_episodes = 0
reward_sum = 0
while random_episodes < 10:
    #env.render()
    observation,reward,done,_ = env.step(np.random.randint(0,2))
    reward_sum += reward
    if done:
        random_episodes += 1
        print('Reward for the episode was :',reward_sum)
        reward_sum = 0
        env.reset()

Reward for the episode was : 11.0
Reward for the episode was : 31.0
Reward for the episode was : 46.0
Reward for the episode was : 18.0
Reward for the episode was : 10.0
Reward for the episode was : 25.0
Reward for the episode was : 13.0
Reward for the episode was : 25.0
Reward for the episode was : 16.0
Reward for the episode was : 14.0

# 实现强化学习策略网络
#常用网络参数
H = 50#节点数
batch_size = 25
learning_rate = 0.1
D = 4 #观测维度
gamma = 0.99#Reward的discount比例

# 占位符  ---构建一个MLP
observations = tf.placeholder(tf.float32,[None,D],name='input_x')
w1 = tf.get_variable('w1',shape=[D,H],initializer=tf.contrib.layers.xavier_initializer())
layer1 = tf