马尔可夫决策过程(Markov Decision Process, MDP)

马尔可夫决策过程(MDP)是强化学习的基础,其中智能体根据当前状态选择动作,以最大化未来奖励。MDP通过贝尔曼等式描述状态值函数和最优策略。Q学习是一种离策略学习方法,利用Q表进行迭代更新以逼近最优策略。深Q学习则用神经网络替代Q表处理连续或大量状态。探索与利用是强化学习中的关键问题,通常采用ε-贪婪策略平衡二者。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

马尔可夫决策过程(Markov Decision Processes,MDPs)

MDPs 简单说就是一个智能体(Agent)采取行动(Action)从而改变自己的状态(State)获得奖励(Reward)与环境(Environment)发生交互的循环过程。绝大多数的增强学习都可以模型化为MDP的问题。MDP 的策略完全取决于当前状态,这也是它马尔可夫性质的体现,根据当前的状态来决定动作。元组表示为: M = <S, A, P_sa, R>

状态的好坏其实等价于对未来回报的期望。因此,引入回报来表示某个时刻t的状态将具备的回报,我们的目标是选择一组最佳的action,使得全部的回报加权和期望最大:

    clip_image032

从上式可以发现,在t时刻的回报值被打了clip_image034的折扣,是一个逐步衰减的过程,越靠后的状态对回报和影响越小。

定义在当前状态下,执行某个策略clip_image038[4]后,出现的结果的好坏,需要定义值函数(value function)

    clip_image043

然而,在当前状态下,一个动作clip_image038[7]可以产生不同的结果,由Bellman等式,根据转移概率从上式得到,其中s’表示下一个状态

    clip_image054

当然,我们求V的目的就是想找到一个当前状态s下,最优的行动策略clip_image038[8],定义最优的V*,即从可选择的策略clip_image062挑选一个最优策略,如下:

    clip_image060

上式的Bellman等式形式如下,第二项是一个clip_image062[2]就决定了每个状态s的下一步动作a,执行a后,s’按概率分布的回报概率和的期望:

    clip_image063

定义了最优的V*,我们再定义最优的策略clip_image066如下:

    clip_image067

选择最优的clip_image069,也就确定了每个状态s的下一步最优动作a,根据以上式子,我们可以知道

    clip_image070

当前状态的最优的值函数V*,是由采用最优执行策略clip_image069[1]的情况下得出的,采用最优执行方案的回报显然要比采用其他的执行策略clip_image062[3]要好。

这里需要注意的是,如果我们能够求得每个s下最优的a,那么从全局来看,clip_image072的映射即可生成,而生成的这个映射是最优映射,称为clip_image069[2]clip_image069[3]针对全局的s,确定了每一个s的下一个行动a,不会因为初始状态s选取的不同而不同。


Exploration and Exploitation 探索与利用

在上面的算法中,我们可以看到需要使用某一个policy来生成动作,也就是说这个policy不是优化的那个policy,所以Q-Learning算法叫做Off-policy的算法。另一方面,因为Q-Learning完全不考虑model模型也就是环境的具体情况,只考虑看到的环境及reward,因此是model-free的方法。

回到policy的问题,那么要选择怎样的policy来生成action呢?有两种做法:

  • 随机的生成一个动作
  • 根据当前的Q值计算出一个最优的动作,这个policy ππ称之为greedy policy,也就是 
    π(St+1)=argmaxaQ(St+1
马尔可夫决策过程Markov Decision ProcessMDP)是一种数学框架,用于建模决策者(或称为“代理”)在一个随机环境中做出序列决策的过程。它是马尔可夫链的扩展,加入了决策制定过程。MDP特别适用于那些决策结果依赖于当前状态和所采取行动的场合。 MDP通常由以下几个部分组成: 1. **状态集合(S)**:表示环境可能存在的所有状态。 2. **行动集合(A)**:对于每个状态,可能存在一系列的行动可供选择。 3. **转移概率(P)**:描述当代理在某个状态下采取特定行动时,转移到下一个状态的概率。它是依赖于当前状态和采取行动的。 4. **奖励函数(R)**:为每个状态和行动对指定一个即时奖励值,表示采取这个行动后立即获得的“收益”。 5. **折扣因子(γ)**:一个介于0和1之间的值,用来衡量未来奖励的当前价值。 在MDP中,代理的目标是通过学习一个策略(policy),即一个状态到行动的映射,来最大化长期累积奖励。策略可以是确定性的,也可以是随机性的。确定性策略为每个状态指定一个行动,而随机性策略为每个状态指定一个行动的概率分布。 MDP的求解通常涉及到以下两个主要的计算问题: 1. **策略评估(Policy Evaluation)**:评估给定策略的期望回报。 2. **策略优化(Policy Improvement)**:基于当前策略评估的结果,生成一个更好的策略。 通过不断迭代这两个步骤,可以找到最优策略,即长期期望回报最大化的策略。在实际应用中,MDP是强化学习的基础,用于解决各种控制问题。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值