强化学习和控制

最新推荐文章于 2025-05-19 15:09:44 发布

AlmostFree

最新推荐文章于 2025-05-19 15:09:44 发布

阅读量5.4k

点赞数

CC 4.0 BY-SA版权

分类专栏： Machine Learning 文章标签：算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/u013508213/article/details/52207429

本文深入探讨强化学习中的马尔科夫决策过程（MDP），介绍值迭代和政策迭代算法，包括它们的思想和比较。通过MDP模型，解释如何在有限和无限状态空间中进行决策，并探讨在实际问题中如何估计状态转移概率和回报函数。最后，讨论了适应值迭代在连续MDPs中的应用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

马尔科夫决策过程MDP
值迭代和政策迭代
MDP模型
无限状态的MDPs
- 离散化
- 值函数估计
  - 使用一个模型或模拟器
  - 适应值迭代

在强化学习中，我们将提供一个奖赏函数，当目标完成的好时，便奖赏；当目标完成的不好时，就惩罚。鞭策算法走一条良好的道路。

马尔科夫决策过程（MDP）

一个Markov decision process是一个元组 $(S, A,{P_{sa}}, \gamma, R)$ 。其中：

$S$ 是状态集。比如在自动直升机驾驶中， $S$ 就是直升机的所有可能位置，方向。
$A$ 是行动。比如所有你能控制直升机的方向。
$P_{sa}$ 是状态转移概率。对于每个状态 $s \in S$ 每个行动 $a \in A$ ， $P_{sa}$ 给出了当我们在状态 $s$ 采取行动 $a$ 时，我们将会转移到的状态的分布。
$\gamma \in [0, 1)$ 称为阻尼系数。
$R:S*A->RealNumber$ 叫做回报函数。

MDP的动态过程：从初始状态 $s_0$ 开始，采取行动 $a_0 \in A$ ；MDP过程向前推进，按分布 $s_1∼P_{s_0a_0}$ 随机转换到下一个状态 $s_1$ 。以此类推，不断转换。用流程可以表示为：
$s_0->(a_0)->s_1->(a_1)->s_2->(a_2)->...$
定义其总花费：
$R(s_0, a_0)+\gamma R(s_1, a_1)+\gamma^2R(s_2,a_2)+...$
我们要做的是选择随时间变化的行动，来使得总花费的期望值最大：
max,E[R(s0,a0)+γR(s1

最低0.47元/天解锁文章

200万优质内容无限畅学

博客等级

码龄12年

464
原创

39
点赞

81
收藏

69
粉丝

关注

私信

热门文章

分类专栏

模拟 36篇
动态规划 70篇
贪心 13篇
暴力枚举 9篇
搜索 34篇
数论数学 81篇
字符串 23篇
二分三分 12篇
计算几何 19篇
图论 69篇
数据结构 49篇
练习赛 19篇
cfGo 7篇
linux 5篇
Machine Learning 31篇
opencv 1篇
crazy minds 1篇
Hash 2篇

展开全部收起

上一篇：: 隐马尔科夫模型（Hidden Markov Models）

下一篇：: 支持向量机（svm）

最新评论

PQ-源码解析
Joey_huuuu: 楼主的代码中缺少yael_nn函数，跑不起来耶
poj 2480 （积性函数+素因子和）
FawkesLi: 为啥和函数是积性函数？初等数论那本书上只说了F(n)=Σf(d)(d|n)是积性函数，又没说前缀和是积性函数
CS229 ProblemSet记录
cnh2n2mg: PS1 logistic regression 中 g(z)写错了，“g(z)=1/(z+e−z)” 应为g(z)=1/(1+e-z)
poj 3109 离散化+扫描线+树状数组
隐语的影法師: 写的真好，图示给的好，代码也好懂，比网上N多寥寥数言的博客强太多~ 当然，要是您进一步指出 c 的含义是 [1,...m] （m是不同的y坐标的个数）中1的个数的部分和就更好了~ 谢谢大佬教诲！
神经网络手写识别例子 matlab实现
北方小城: 这是深度学习？

大家在看

探索动态地图：用R绘制迁移流动图

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。