1. 什么是MDP?为什么重要?
马尔可夫决策过程(MDP) 是一种数学框架,用于建模序列决策问题,其中一个智能体需要在环境中通过选择动作来最大化长期收益(累积奖励)。MDP是强化学习的理论基础,而强化学习是人工智能的重要分支,广泛应用于机器人、游戏AI、自动驾驶等领域。
为什么重要?
- 序列决策:现实世界中的许多问题(如玩游戏、控制机器人、优化资源分配)都涉及在多个时间步内做出决策,MDP提供了描述这类问题的标准框架。
- 强化学习的基石:强化学习的核心目标是找到一个最优策略,使智能体在MDP中获得最大期望回报。
- 通用性:MDP可以建模各种动态系统,从简单的网格世界到复杂的金融市场。
与深度学习的对比
深度学习主要解决监督学习(如图像分类)或无监督学习(如生成模型)问题,输入和输出通常是静态的。而MDP关注动态交互,智能体需要根据环境状态选择动作,并根据环境反馈(奖励)调整行为。这种动态性是MDP的核心特点。
2. MDP的核心组件
MDP由以下五个核心组件组成,用数学符号表示为一个五元组 (S,A,P,R,γ)(S, A, P, R, \gamma)(S,A,P,R,γ):
2.1 状态(SSS)
- 定义:状态是描述环境的全部信息。状态空间 SSS 可以是离散的(如棋盘上的格子位置)或连续的(如机器人的坐标和速度)。
- 例子:在一个迷宫游戏中,状态可以是智能体当前所在的位置 (x,y)(x, y)(x,y)。
2.2 动作(AAA)
- 定义:动作是智能体可以采取的操作。动作空间 AAA 也可以是离散的(如“上、下、左、右”)或连续的(如机器人关节的力矩)。
- 例子:在迷宫中,动作可以是“向左移动”或“向右移动”。
2.3 转移概率(PPP)
- 定义:转移概率描述了在当前状态 sss 下采取动作 aaa 后,环境转移到下一状态 s′s's′ 的概率。用数学表示为:
P(s′∣s,a)=P(St+1=s′∣St=s,At=a)P(s' | s, a) = P(S_{t+1} = s' | S_t = s, A_t = a)P(s′∣s,a)=P(St+1=s′∣St=s,At=a) - 特点:MDP假设环境的动态是马尔可夫的(后面会详细解释),即下一状态只依赖于当前状态和动作,而与历史无关。
- 例子:在迷宫中,如果智能体在 (x,y)(x, y)(x,y) 选择“向右移动”,转移概率可能表示有 90% 的概率到达 (x+1,y)(x+1, y)(x+1,y),10% 的概率因为“滑倒”留在原地。
2.4 奖励函数(RRR)
- 定义:奖励函数定义了智能体在状态 sss 下采取动作 aaa 后获得的即时奖励。用数学表示为:
R(s,a)R(s, a)R(s,a) 或 R(s,a,s′)R(s, a, s')R(s,a,s′)
奖励可以是固定的(确定性)或随机的(基于概率分布)。 - 例子:在迷宫中,到达目标状态可能获得 +100+100+100 的奖励,撞墙可能获得 −10-10−10 的奖励。
2.5 折扣因子(γ\gammaγ)
- 定义:折扣因子 γ∈[0,1)\gamma \in [0, 1)γ∈[0,1) 用于平衡即时奖励和未来奖励的重要性。数学上,未来的奖励会被乘以 γt\gamma^tγt(其中 ttt 是时间步),以减少其影响。
- 意义:
- γ=0\gamma = 0γ=0:智能体只关心即时奖励(极度“近视”)。
- γ→1\gamma \to 1γ→1:智能体重视长期奖励(“远视”)。
- 例子:如果 γ=0.9\gamma = 0.9γ=0.9,在 t=1t=1t=1 时的奖励 10 在当前的价值是 0.9⋅10=90.9 \cdot 10 = 90.9⋅10=9。
3. 马尔可夫性质
MDP的核心假设是马尔可夫性质,这是理解MDP的关键。马尔可夫性质是指:
下一状态 s′s's′ 和奖励 rrr 只依赖于当前状态 sss 和动作 aaa,与之前的状态和动作历史无关。
数学表达为:
P(St+1=s′,Rt+1=r∣St=s,At=a,St−1,At−1,… )=P(St+1=s′,Rt+1=r∣St=s,At=a)P(S_{t+1} = s', R_{t+1} = r | S_t = s, A_t = a, S_{t-1}, A_{t-1}, \dots) = P(S_{t+1} = s', R_{t+1} = r | S_t = s, A_t = a)P(St+1=s′,Rt+1=r∣St=s,At

最低0.47元/天 解锁文章
1398

被折叠的 条评论
为什么被折叠?



