强化学习导论

最新推荐文章于 2025-05-17 15:50:41 发布

羽星_s

最新推荐文章于 2025-05-17 15:50:41 发布

阅读量360

点赞数

分类专栏：强化学习（第二版）知识点整理文章标签：强化学习机器学习

本文链接：https://blog.youkuaiyun.com/qq_20144897/article/details/126508628

版权

强化学习（第二版）知识点整理专栏收录该内容

2 篇文章

订阅专栏

本文深入探讨了强化学习的核心概念，包括试错机制、延迟收益、马尔可夫决策过程、策略与价值函数等。它阐述了强化学习如何通过与环境交互学习，并区分了问题、方法与领域。此外，文章还介绍了四个关键要素：策略、收益信号、价值函数和环境模型，以及强化学习的局限性和适用范围。最后，举例说明了时序差分学习方法和更新规则。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

强化学习

试错和延迟收益是强化学习两个最重要最显著的特征。
强化学习既表示一个问题，又是一类解决问题的方法，同时还是一个研究此问题及其解决方法的领域。
区分“问题”和“解决方法”，在强化学习中十分重要。
马尔可夫决策过程包含三方面——感知、动作和目标。
强化学习目的是最大化收益信号，而不是找出数据的隐含结构。
基于一般原则的方法，比如搜索或学习，被定性为“弱方法”；而基于知识的方法则被称为“强方法”。

强化学习要素

在个体和环境之外，强化学习系统一般有四个要素：策略、收益信号、价值函数、环境模型。
策略：定义学习智能体在给定时间内行为方式。
收益信号：定义强化学习问题中的目标。
价值函数：定义长期收益，收益信号表明直接意义上的好处。
没有收益就没有价值，而评估价值的唯一目的就是获得更多的收益
环境模型：对环境的模拟，它对环境的行为做出推断。例如给定状态和动作，模型可以预测结果的下一个状态和下一个收益。

局限性与适用范围

强化学习十分依赖“状态”这个概念，它既作为策略和价值函数的输入，又同时作为模型的输入与输出。
强化学习方法，是在与环境互动中学习的一类方法。
进化方法就其自身而言并不适用于强化学习问题。

扩展示例：井子祺

前一状态的当前值被更新为更接近后续状态的值，这可以通过先前状态的值移动到稍后状态的值的一小部分来完成。如果我们让 $S_t$ 表示贪婪移动之前的状态，而 $S_{t+1}$ 表示移动之后的状态，那么将 $S_t$ 的估计值更新表示为 $V(S_t)$ ，可以写为：
$V(S_t) = V(S_t) + \alpha\left[V(S_{t+1})-V(S_t)\right]$
$\alpha$ 为学习率，此更新规则为时序差分学习方法的一个例子，因为其变化基于两个连续时间的估计之间的差，即： $\left[V(S_{t+1})-V(S_t)\right]$