深度强化学习(一)

最新推荐文章于 2024-08-08 17:28:47 发布

原创最新推荐文章于 2024-08-08 17:28:47 发布 · 269 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#深度强化学习

深度强化学习专栏收录该内容

15 篇文章

订阅专栏

本文深入解析了强化学习中的策略概念，包括确定性和随机性策略，并介绍了Actor-Critic算法如何结合策略梯度和值函数的优势，实现更高效的学习过程。

部署运行你感兴趣的模型镜像

所谓的策略，其实就是状态到动作的映射。数学表达为 π：s→a

确定性策略是说只要给定一个状态s，就会输出一个具体的动作a，而且无论什么时候到达状态s，输出的动作a都是一样的。而随机策略是指，给定一个状态s，输出在这个状态下可以执行的动作的概率分布。即使在相同状态下，每次采取的动作也很可能是不一样的。

Actor-Critic

如果我们能够相对准确地估计状态价值，用它来指导策略更新，那么是不是会有更好的学习效果呢？这就是Actor-Critic策略梯度的主要思想。

我们有了像 Q-learning 这么伟大的算法, 为什么还要瞎折腾出一个 Actor-Critic? 原来 Actor-Critic 的 Actor 的前生是 Policy Gradients , 这能让它毫不费力地在连续动作中选取合适的动作, 而 Q-learning 做这件事会瘫痪. 那为什么不直接用 Policy Gradients 呢? 原来 Actor Critic 中的 Critic 的前生是 Q-learning 或者其他以值为基础的学习法 , 能进行单步更新, 而传统的 Policy Gradients 则是回合更新, 这降低了学习效率.

actor：行动者，对应policy
critic：评论者，对应value function值函数

Actor-Critic算法主要是为了解决Policy Gradient算法中仅能在一个回合完成之后才能更新参数。简单的说是在玩游戏结束了之后，才能对参数进行更新。

强化学习的中心思想，就是让智能体在环境里学习。每个行动会对应各自的奖励，智能体通过分析数据来学习，怎样的情况下应该做怎样的事情。

设定一种规则，让智能体能够把握奖励与危险之间的平衡

强化学习的三种方法：