强化学习PolicyGradients

最新推荐文章于 2025-07-01 19:19:43 发布

JasonSparrow_1

最新推荐文章于 2025-07-01 19:19:43 发布

阅读量391

点赞数

CC 4.0 BY-SA版权

分类专栏： RLpython 文章标签： RL

本文链接：https://blog.youkuaiyun.com/JasonSparrow_1/article/details/88029002

RLpython 专栏收录该内容

5 篇文章

订阅专栏

本文深入解析了PolicyGradients策略梯度算法的工作原理，包括如何通过奖惩机制调整策略，实现动作选择概率的优化。文章详细介绍了回合更新机制，以及如何构建全连接层并利用softmax函数转换动作值为概率。同时，阐述了如何通过最小化损失函数来最大化实际动作概率，展示了算法的具体实现流程。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Policy Gradients

通过奖惩机制reward，来对选择进行反向传递，从而确定是否需要进行加大，或者减小选择的力度
因为Policy Gradients是回合更新，不是每步更新，所以是在回合进行结束后，才对参数和reward进行调整

建立两个全链接层

利用softmax将所有的动作值转换成概率

	self.all_act_prob = tf.nn.softmax(all_act, name='act_prob')

为了套用tf中神经网络的Loss，将动作的概率加负号进行最小化，从而将实际概率值最大化

	neg_log_prob = tf.reduce_sum(
		-tf.log(self.all_act_prob)*tf.one_hot(self.tf_acts, self.n_actions), axis=1
	)
    loss = tf.reduce_mean(neg_log_prob * self.tf_vt)  # reward guided loss
    
    self.train_op = tf.train.AdamOptimizer(self.lr).minimize(loss)

取和存现在的状态

	def choose_action(self, observation):
        prob_weights = self.sess.run(self.all_act_prob, 
        	feed_dict={self.tf_obs: observation[np.newaxis, :]})
        action = np.random.choice(
        	range(prob_weights.shape[1]), p=prob_weights.ravel())  
        # select action w.r.t the actions prob
        return action

    def store_transition(self, s, a, r):
        self.ep_obs.append(s)
        self.ep_as.append(a)
        self.ep_rs.append(r)