强化学习中马尔科夫决策过程和贝尔曼方程

本文深入解析强化学习原理,对比监督与非监督学习,强调其动态交互特性。介绍马尔科夫决策过程(MDP),策略函数及值函数概念,探讨贝尔曼方程在策略优化中的应用。同时,区分值函数与Q函数,阐述值迭代与策略迭代算法。

强化学习的基本原理:


在这里插入图片描述
从强化学习的基本原理可以看出它与其他机器学习算法如监督学习和非监督学习的一些基本差别。 在监督学习和非监督学习中,数据是静态的、不需要与环境进行交互, 比如图像识别,只要给出足够的差异样本,将数据输入深度神经网络中进行训练即可。然而, 强化学习的学习过程是动态的、不断交互的过程, 所需要的数据也是通过与环境不断交互产生的。所以,与监督学习和非监督学习相比,强化学习所涉及的对象更多,比如动作、环境、状态转移概率和回报函数等等。强化学习更像是人的学习过程:人类通过与周围环境交互,学会了走路,奔跑,劳动。 深度学习如图像识别和语音识别解决的是感知问题,强化学习解决的是决策问题。 人工智能的终极目的是通过感知进行智能决策。

通过不断的探索, 提出了一套可以解决大部分强化学习问题的框架,这个框架就是马尔科夫决策过程,简称MDP。 其中的概念有马尔可夫性,马尔科夫过程,马尔科夫决策过程。


策略函数:

表示每个状态到行为的映射。

状态值函数(简称值函数):

表示策略执行之后的状态的值,可以用来评价当前状态的好坏。

状态
状态1 0.3
状态2 0.7

状态-行为值函数(简称Q函数):
表示智能体遵循策略 π \pi π 某一状态 下所执行的 特定行为 的最佳程度.

状态 行为
状态1 行为1 0.03
状态1 行为2 0.02
状态2 行为1 0.5
状态2 行为2 0.9

在提到值函数V(S)或Q函数Q(S,a)时,实际上是指如上所述的值表和Q表。

值函数与状Q函数的区别:
值函数是确定状态的最佳程度,而Q函数是确定每一状态下行为的最佳程度。


贝尔曼方程

贝尔曼方程,也被称作动态规划方程, 他是把一个规划问题转化为抽象状态之间的转移问题,求解贝尔曼方程就相当于在寻找选择了什么样的策略到达了当前状态。
贝尔曼方程的重要性在于, 它能让我们将一个状态的值表达成其它状态的值。这意味着,如果我们知道

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值