24、强化学习中的关键概念与方法解析

y9z0a1b

于 2025-11-20 10:24:38 发布

阅读量15

点赞数

CC 4.0 BY-SA版权

分类专栏：强化学习实战入门文章标签：强化学习分层强化学习 SMDP

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/y9z0a1b/article/details/155056747

强化学习实战入门专栏收录该内容

24 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

强化学习中的关键概念与方法解析

1. 强化学习研究主题概述

强化学习领域有多个重要的研究主题，下面为你详细介绍：

1.1 分层强化学习

在强化学习中，当状态空间变得过大时，智能体难以找到任务的最优策略，这影响了其在大型系统中的实际应用。分层强化学习通过将生成任务分解为多个子任务，每个子任务的状态空间较小，从而更易找到解决方案。也就是说，我们学习生成子任务的策略层次结构，而非为整个任务学习单一策略。分层强化学习具有显著优势，能有效解决状态空间过大的问题。

1.2 SMDP 模型

SMDP 模型可转换为分层强化学习，它在强化学习中也有一定的应用和研究价值。

1.3 带 HAM 的强化学习

HAM 用于将部分策略编写为一组带有未指定选择状态的分层有限状态机，并使用强化学习来学习该部分策略的最优完成方式。其框架包含五种类型的机器状态，并且有相应的算法运行流程。例如，在移动机器人的 HAM 示例中，有导航机器和移动速度机器，还给出了该示例的伪代码。另外，在 RoboCup 控球示例中也有 HAM 的应用，并编写了其伪代码。

1.4 MAXQ 值函数分解

MAXQ 描述了如何将策略的整体值函数分解为各个子任务（以及递归子任务）的值函数集合。以出租车世界为例，详细说明了如何进行任务分解。

2. 马尔可夫决策过程（MDP）

2.1 MDP 定义与组成

满足马尔可夫性质的强化学习任务称为马尔可夫决策过程（MDP）。若状态和动作空间有限，则称为有限 MDP，有限 MDP 在强化学习理论中尤为重要。M

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符 | 博主筛选后可见

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。