Reinforcement Learning:An Introduction第二章读书笔记

最新推荐文章于 2025-07-19 10:38:01 发布

reargarden

最新推荐文章于 2025-07-19 10:38:01 发布

阅读量1.6k

点赞数

CC 4.0 BY-SA版权

分类专栏：强化学习

本文链接：https://blog.youkuaiyun.com/qq_34719975/article/details/79933606

Part I:Tabular Solution Methods

在这一部分中我们描述了强化学习中几乎所有的核心思想。在这些问题中state和action空间足够小可以被估计值函数如队列，表来展示。在这些例子中，都能准确地找到最佳值函数和最佳策略。这与下一部分是不同的，下一部分模糊的解决，但适用范围更广。

这一部分的第一章介绍了强化学习的特殊例子，它只有一种情况，被称作bandit问题。第二章介绍了延续到本书剩余部分的通用问题形式化——有限马尔科夫决策过程。他的核心思想包括bellman equation 和value function。

接下来的三章介绍了解决有限马尔科夫问题的三类问题：动态编程，Monte Carlo method,和时序差分学习。每类方法都各有优缺点。

方法	评价
动态编程	可以发挥数学上计算优势（are well developed mathematically）,但是需要一个完全准确地环境模型。
Monte Carlo methond	不需要环境模型，概念简单，但不适合步进计算。
时序差分算法	不需要环境模型，完全步进，但分析十分复杂。

接下来的两章如何结合三种方法来最大化效果。在前一章中我们介绍了如何通过 multi-step bootstrapping method 来吧Monte Carlo methon和时序差分学习的优势结合起来，最后一章介绍了时序差分学习如何跟模型学习和计划方法（如动态规划）结合来提供一个完全的统一的解决表式强化学习问题的方法。