Policy Gradient简述

本文深入探讨了PolicyGradient(策略梯度)方法的核心原理及其在不同场景中的应用方式。其中包括六种不同的价值评估方法,并以AlphaGo为例说明如何使用PolicyGradient解决实际问题。此外,还讨论了从离散动作到连续控制的输出转变。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

占个坑!!!

简单解释

Policy Gradient需要Actor 网络来实现,通过对动作的输出概率的对数似然值乘上动作的价值评价作为loss去更新policy(动作的概率)。对于动作的价值评价更是多种多样,这些就是PG(Policy Gradient)的核心部分。

注:log的有无区别
加log:增加了非线性
无log:无非线性

详情在这里:
这里写图片描述
一共涉及6种价值的评估:
1 轨迹中,全部奖励值的总和,有点以点盖全的感觉。
2 轨迹中,动作之后奖励值的总和,来表征做出动作之后的一个长期回报的期望。
3 在第2个方法中的奖励值总和减去一个基准。
4 直接应用Q值来作为指标,在策略policy下,在某一状态采取某一具体动作的价值表征。就是DQN方法,或者说是A3C中Critic的动作好坏评估阶段方法。
5 A3C中Actor中利用的方法,称之为“优势”,在动作在状态中的价值去除过状态的价值,更加合理一些。
6 利用状态价值加上时间差分算法的应用。

以AlphaGo为例,AlphaGo的policy network输出的是softmax概率,我们只能从中选择一个下法,然后得到一个reward。这种情况下reward和policy network之间是不可微的关系,而使用Policy Gradient则没有这个障碍。也因为Policy Gradient的这个特点,目前的很多传统监督学习的问题因为输出都是softmax的离散形式,都可以改造成Policy Gradient的方法来实现,调节得当效果会在监督学习的基础上进一步提升。

对于输出从概率(离散动作)到向量(连续控制)的转变问题!

通过SPG(随机策略梯度)、DPG(确定策略梯度)具体的请关注下一个博客!

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值