强化学习基础知识笔记[1] - 马尔可夫决策过程

本文介绍了强化学习的基本原理,强调了智能体与环境交互中的状态转移、回报函数和策略修正。讲解了马尔可夫性、马尔可夫决策过程(MDP)的概念,包括状态值函数、状态-行为值函数及其贝尔曼方程,并阐述了最优策略和最优值函数的寻找。强化学习的目标是找到使累计回报最大化的策略。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

强化学习基本原理

智能体通过动作A与环境进行交互,形成状态S->S’的改变并得到回报R。在不断的交互过程中,强化学习利用交互得到的数据修正自身的动作策略,最终习得该环境下完成相应任务的最优策略。

参考资料
[1] 强化学习入门 第一讲 MDP

预备知识 - 马尔可夫概念

马尔可夫性

马尔可夫性指系统下一状态 S t + 1 S_{t+1} St+1仅与当前状态 s t s_{t} st有关,与以前的状态无关,当前状态可以反映所有历史状态。
公式描述:
P [ s t + 1 ∣ s t ] = P [ s t + 1 ∣ s 1 , s 2 , . . . , s t ] (1.1) P[s_{t+1}|s_t] = P[s_{t+1}|s_1,s_2,...,s_t] \tag{1.1} P[st+1st]=P[st+1s1,s2,...,st](1.1)

马尔可夫随机过程

随机过程即一组随机变量序列,马尔可夫随机过程指其中的每一个随机变量均具有马尔可夫性,即只与前一个随机变量相关。

马尔可夫过程

马尔可夫过程定义为:二元组(S,P),S为有限状态集合,P为状态转移概率矩阵。
P = [ P 11 ⋯ P 1 n ⋮ ⋱ ⋮ P n 1 ⋯ P n n ] (1.2) P = \left[ \begin{matrix} P_{11} & \cdots & P_{1n} \\ \vdots & \ddots & \vdots \\ P_{n1} & \cdots & P_{nn} \\ \end{matrix} \right] \tag{1.2} P=P11Pn1P1nPnn(1.2)

马尔可夫链

给定马尔可夫过程(S,P)后,从一状态出发到一状态结束存在多条路径,每条路径为马尔可夫链。

马尔可夫决策过程

马尔可夫决策过程定义为:多元组(S, A, P, R, γ)
其中:

  • S为有限状态集合
  • A为有限动作集合
  • P为状态转移概率
  • R为回报函数
  • γ为折扣因子

马尔可夫决策过程的状态转移包含概率:
P s s ′ a = P [ S t + 1 = s ′ ∣ S t = s , A t = a ] (1.3) P^{a}_{ss'} = P[S_{t+1} = s'|S_t = s, A_t = a] \tag{1.3} Pssa=P[St+1=sSt=s,At=a](1.3)
理解:

  • P s s ′ a P^{a}_{ss'} Pssa为采取动作a从状态s转移到s’的概率

马尔可夫决策过程与强化学习

强化学习的目标

给定马尔可夫决策过程(S, A, P, R, γ),寻找一组最优策略:
π ( a ∣ s ) =

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值