如果环境存在random,那么问题还能建模成MDP吗?

李宏毅老师讲解了在Atari游戏中,即使面对相同的状态,由于actor的行为具有随机性,所采取的动作可能不同。此外,即使采取相同动作,由于游戏本身的随机性,获得的奖励和下一个状态也可能不同。这引发了一个问题:在这种情况下,状态间的转移是否还具有马尔科夫性质?若不具备,则强化学习方法的应用是否会变得较为勉强?

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

李宏毅老师的课程:https://www.youtube.com/watch?v=W8XF3ME8G2I


老师说,对于同一个observation/state(atari game的画面),也不一定会采取相同的动作,因为有些actor是stochastic的,选action有一定随机性,这一点好理解。。。

老师还说,即便actor采取同一个action,得到的reward和next state也不一定一样,因为game本身存在一些randomness。这一点我很早就注意到了,那如果game本身存在randomness,以game的画面为state,state到state的之间的转移还有马尔科夫性质吗?如果没有的话,RL这些方法的应用是不是很牵强?或者说RL只是在randomness的基础上学个平均还不错的policy。



### 马尔可夫决策过程 (MDP) 概念 马尔可夫决策过程是描述强化学习问题环境中的一种形式化框架,适用于环境完全可观测的情况。这种模型在马尔可夫过程中引入了动作的概念,在此基础上进一步发展为带有奖励机制的过程——即马尔可夫奖励过程,最终形了能够处理行动选择的马尔可夫决策过程[^1]。 在一个标准的 MDP 中,系统被建模为一个五元组 \(<S,A,P,R,\gamma>\),其中: - **\(S\)** 是有限状态集合; - **\(A\)** 表示可用的动作集合; - **\(P(s'|s,a)\)** 定义了给定当前状态下执行某个特定行为转移到下一个可能状态的概率分布; - **\(R(s,a,s')\) 或者简化 \(R_a(s)\)** 描述的是即时奖励函数,反映了采取某项操作后所获得的好处或代价; - **\(\gamma \in [0, 1]\)** 称作折扣因子,用于衡量未来回报的重要性相对于即时收益而言的程度[^5]。 #### 动态规划求解 MDP 控制问题 对于已知确切参数(白盒条件)下的 MDP 问题,可以通过动态规划中的两种主要技术来寻找最优策略及其对应的状态价值函数:策略迭代和价值迭代。这两种方法都依赖于贝尔曼方程式的反复应用以逐步逼近最佳解决方案[^2]。 ```python def policy_iteration(policy_eval_fn=policy_evaluation, policy_improvement_fn=policy_improvement): """实现简单的策略迭代算法""" pi = initialize_random_policy() while True: V_pi = policy_eval_fn(pi) new_pi = policy_improvement_fn(V_pi) if is_stable(new_pi, pi): break pi = new_pi return pi ``` ### 应用场景 MDP 广泛应用于多个领域内涉及序列决策的任务中,尤其是在那些具有随机性和不确定性因素存在的场合下表现尤为突出。典型的应用实例包括但不限于自动驾驶汽车路径规划、机器人导航避障、资源分配调度优化等问题解决上。此外,在游戏AI设计方面也发挥着重要作用,比如AlphaGo就是利用了类似的原理来进行围棋博弈训练[^4]。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值