深入浅出强化学习笔记(1)

本文深入介绍强化学习,从马尔科夫决策过程(MDP)的基本概念出发,讨论强化学习的目标和策略,解释动态规划、策略评估与改善,最后触及无模型的蒙特卡罗方法,探讨探索策略的重要性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

第一讲笔记

  • 深度学习如图像识别和语音识别解决的是感知的问题,强化学习解决的是决策的问题
    强化学习基本框架-马尔科夫决策过程(MDP)
    马尔科夫性:系统的下一状态只与当前状态有关在这里插入图片描述
    马尔科夫过程:马尔科夫过程是一个二元组\left(S,P\right),且满足:S是有限状态集合, P是状态转移概率。状态转移概率矩阵为:
    在这里插入图片描述
    马尔科夫决策过程:马尔科夫过程中不存在动作和奖励。将动作(策略)和回报考虑在内的马尔科夫过程称为马尔科夫决策过程。

马尔科夫决策过程由元组 (S,A,P,R,γ)(S,A,P,R,\gamma)(S,A,P,R,γ)描述,其中:S为有限的状态集, A 为有限的动作集, P 为状态转移概率, R为回报函数,γ\gammaγ为折扣因子,用来计算累积回报。注意,跟马尔科夫过程不同的是,马尔科夫决策过程的状态转移概率是包含动作的即:Pss′a=P[St+1=s′∣St=s,At=a]P_{ss'}^{a}=P\left[S_{t+1}=s'|S_t=s,A_t=a\right]Pssa=P[St+1=sSt=s,At=a]

强化学习的目标
是给定一个马尔科夫决策过程,寻找最优策略。所谓策略是指状态到动作的映射,策略常用符号\pi 表示,它是指给定状态s 时,动作集上的一个分布,即
在这里插入图片描述
由于策略π\piπ是随机的,因此累积回报也是随机的。为了评价状态s_1的价值,我们需要定义一个确定量来描述状态s1s_1s1的价值,很自然的想法是利用累积回报来衡量状态s1s_1s1的价值。然而,累积回报G1G_1G1是个随机变量,不是一个确定值,因此无法进行描述。但其期望是个确定值,可以作为状态值函数的定义。

状态值函数:

当智能体采用策略π\piπ时,累积回报服从一个分布,累积回报在状态s处的期望值定义为状态-值函数:
在这里插入图片描述
相应地,状态-行为值函数为:
在这里插入图片描述
状态值函数与状态-行为值函数的贝尔曼方程

在这里插入图片描述
在这里插入图片描述

计算过程:a->s->a`(有行动了之后才有RsaR_s^aRsa)
在这里插入图片描述
根据策略最优定理知道,当值函数最优时采取的策略也是最优的。反过来,策略最优时值函数也最优。我们就是要max(值函数)

强化学习算法分类:

另外:
强化学习算法:
根据策略是否是随机的,分为确定性策略强化学习和随机性策略强化学习。
根据转移概率是否已知可以分为基于模型的强化学习算法和无模型的强化学习算法。
根据回报函数是否已知,可以分为强化学习和逆向强化学习。逆向强化学习是根据专家实例将回报函数学出来。

第二讲笔记:

在这里插入图片描述

  • 利用动态规划可以解决的问题需要满足两个条件:(1)整个优化问题可以分解为多个子优化问题,子优化问题的解可以被存储和重复利用。
  • 状态值函数的计算:
    在这里插入图片描述
    状态s处的值函数υπ(s){\upsilon _\pi }\left( s \right)υπ(s),可以利用后继状态的值函数υπ(s′){\upsilon _\pi }\left( {s'} \right)υπ(s
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值