强化学习-策略梯度与值函数

程序猿小菜鸡

于 2024-05-06 22:22:16 发布

阅读量380

点赞数 10

文章标签：人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/qq_45173177/article/details/138510194

版权

本文介绍了Q-learning、DQN及其改进算法在强化学习中的应用，重点讨论了基于值函数的方法（如DQN）和基于策略的方法（如策略梯度），以及Actor-Critic算法，该算法同时学习策略和价值函数以优化策略网络和价值网络。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Q-learning、DQN 及 DQN 改进算法（Double DQN，Dueling DQN）都是基于价值的方法， Q-learning 用于处理有限状态，而 DQN 用来解决连续状态的问题。强化学习中除了基于值函数的方法，还有基于策略的方法。基于值函数的方法主要是学习值函数，然后根据值函数导出一个策略，学习过程中并不存在一个显式的策略；而基于策略的方法则是直接显式地学习一个目标策略，策略梯度是基于策略的方法。

基于策略的方法首先需要将策略参数化。假设目标策略 $\Pi \Theta$ 是一个随机性策略，并且处处可微，其中 $\Theta$ 是对应的参数，可以用神经网络模型来为这样一个策略函数建模，输入某个状态，然后输出一个动作的概率分布，目标是要寻找一个最优策略并最大化这个策略在环境中的期望回报。在每一个状态下，梯度的修改是让策略更多地去采样到带来较高Q值的动作，更少地去采样到带来较低Q值的动作。

Actor-Critic 算法

既学习价值函数，又学习策略函数。

Actor-Critic 分为两个部分：Actor（策略网络）和 Critic（价值网络）

Actor 要做的是与环境交互，并在 Critic 价值函数的指导下用策略梯度学习一个更好的策略。

Critic 要做的是通过 Actor 与环境交互收集的数据学习一个价值函数，这个价值函数会用于判断在当前状态什么动作是好的，什么动作不是好的，进而帮助 Actor 进行策略更新。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。