PPO代码理解

leaf_leaves_leaf

已于 2025-03-19 19:10:08 修改

阅读量1.6k

点赞数 13

分类专栏：强化学习PPO 文章标签： pytorch 深度学习 python

于 2024-06-24 10:51:40 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/qq_64671439/article/details/139796934

版权

强化学习PPO 专栏收录该内容

2 篇文章

订阅专栏

目录

# Finding the ratio (pi_theta / pi_theta__old): ratios = torch.exp(logprobs - old_logprobs.detach())

advantages = rewards - state_values.detach()

surr1 = ratios * advantages

surr2 = torch.clamp(ratios, 1-self.eps_clip, 1+self.eps_clip) * advantages

loss = -torch.min(surr1, surr2) + 0.5*self.MseLoss(state_values, rewards) - 0.01*dist_entropy

为什么最大化用新旧策略概率比率乘以优势函数，即ratios * advantages这个式子就可以代表最大化收益？

详细解释一下上面回答的第一个公式，即策略梯度定理给出的策略参数的梯度形式

详细解释一下0.5*self.MseLoss(state_values, rewards)它的意义

为什么价值网络可以估计在给定状态下，智能体未来能获得的总奖励的期望值，它是怎么估计出来的？

详细解释一下0.01*dist_entropy它的意思

优势函数 A(s,a) 表示在状态 s 下采取动作 a 相对于平均水平的优劣程度。正值表示该动作优于平均水平，负值表示该动作劣于平均水平。为什么state_values可以代表平均水平

V（s)在代码中只是个神经网络呀，输入736个特征，输出一个值，为什么它就是对所有可能动作的期望奖励的估计

PPO的第二项：0.5*self.MseLoss(state_values, rewards)，是让状态-动作值函数Q（s,a)接近状态值函数V（s)，可是状态-动作值函数Q（s,a)意思是在某个状态 s 下采取动作 a 所能带来的预期奖励，而状态值函数V（s)意思是在状态 s 下采取所有可能动作的平均奖励，这两个不是一个东西呀，为什么损失函数想让他俩越接近越好

状态-动作值函数Q（s,a)意思是采取动作 a 所能带来的预期奖励，而状态值函数V（s)意思是采取所有可能动作的平均奖励，采取的动作都不一样，为什么要让他们接近

状态-动作值函数Q（s,a)意思是采取动作 a 所能带来的预期奖励，而状态值函数V（s)意思是采取所有可能动作的平均奖励，采取的动作都不一样，状态值函数V（s)神经网络的意思是让采取所有可能动作的平均奖励接近采取动作 a 所能带来的预期奖励吗

# Finding the ratio (pi_theta / pi_theta__old):
ratios = torch.exp(logprobs - old_logprobs.detach())

# Finding the ratio (pi_theta / pi_theta__old): 
ratios = torch.exp(logprobs - old_logprobs.detach())

advantages = rewards - state_values.detach()

advantages = rewards - state_values.detach()

surr1 = ratios * advantages

surr1 = ratios * advantages

surr2 = torch.clamp(ratios, 1-self.eps_clip, 1+self.eps_clip) * advantages

surr2 = torch.clamp(ratios, 1-self.eps_clip, 1+self.eps_clip) * advantages

loss = -torch.min(surr1, surr2) + 0.5self.MseLoss(state_values, rewards) - 0.01dist_entropy

loss = -torch.min(surr1, surr2) + 0.5*self.MseLoss(state_values, rewards) - 0.01*dist_entropy

为什么最大化用新旧策略概率比率乘以优势函数，即ratios * advantages这个式子就可以代表最大化收益？

$\pi$ 代表策略，某个状态在该策略下选择该动作的概率乘以选择该动作后的收益，最大化这个值。期望E是对一批数据求平均。

详细解释一下上面回答的第一个公式，即策略梯度定理给出的策略参数的梯度形式

详细解释一下0.5*self.MseLoss(state_values, rewards)它的意义

为什么价值网络可以估计在给定状态下，智能体未来能获得的总奖励的期望值，它是怎么估计出来的？

详细解释一下0.01*dist_entropy它的意思

优势函数 A(s,a) 表示在状态 s 下采取动作 a 相对于平均水平的优劣程度。正值表示该动作优于平均水平，负值表示该动作劣于平均水平。为什么state_values可以代表平均水平

V（s)在代码中只是个神经网络呀，输入736个特征，输出一个值，为什么它就是对所有可能动作的期望奖励的估计

PPO的第二项：0.5*self.MseLoss(state_values, rewards)，是让状态-动作值函数Q（s,a)接近状态值函数V（s)，可是状态-动作值函数Q（s,a)意思是在某个状态 s 下采取动作 a 所能带来的预期奖励，而状态值函数V（s)意思是在状态 s 下采取所有可能动作的平均奖励，这两个不是一个东西呀，为什么损失函数想让他俩越接近越好

状态-动作值函数Q（s,a)意思是采取动作 a 所能带来的预期奖励，而状态值函数V（s)意思是采取所有可能动作的平均奖励，采取的动作都不一样，为什么要让他们接近

状态-动作值函数Q（s,a)意思是采取动作 a 所能带来的预期奖励，而状态值函数V（s)意思是采取所有可能动作的平均奖励，采取的动作都不一样，状态值函数V（s)神经网络的意思是让采取所有可能动作的平均奖励接近采取动作 a 所能带来的预期奖励吗

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

leaf_leaves_leaf 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。