第一讲笔记
- 深度学习如图像识别和语音识别解决的是感知的问题,强化学习解决的是决策的问题
强化学习基本框架-马尔科夫决策过程(MDP)
马尔科夫性:系统的下一状态只与当前状态有关
马尔科夫过程:马尔科夫过程是一个二元组\left(S,P\right),且满足:S是有限状态集合, P是状态转移概率。状态转移概率矩阵为:
马尔科夫决策过程:马尔科夫过程中不存在动作和奖励。将动作(策略)和回报考虑在内的马尔科夫过程称为马尔科夫决策过程。
马尔科夫决策过程由元组 (S,A,P,R,γ)(S,A,P,R,\gamma)(S,A,P,R,γ)描述,其中:S为有限的状态集, A 为有限的动作集, P 为状态转移概率, R为回报函数,γ\gammaγ为折扣因子,用来计算累积回报。注意,跟马尔科夫过程不同的是,马尔科夫决策过程的状态转移概率是包含动作的即:Pss′a=P[St+1=s′∣St=s,At=a]P_{ss'}^{a}=P\left[S_{t+1}=s'|S_t=s,A_t=a\right]Pss′a=P[St+1=s′∣St=s,At=a]
强化学习的目标:
是给定一个马尔科夫决策过程,寻找最优策略。所谓策略是指状态到动作的映射,策略常用符号\pi 表示,它是指给定状态s 时,动作集上的一个分布,即
由于策略π\piπ是随机的,因此累积回报也是随机的。为了评价状态s_1的价值,我们需要定义一个确定量来描述状态s1s_1s1的价值,很自然的想法是利用累积回报来衡量状态s1s_1s1的价值。然而,累积回报G1G_1G1是个随机变量,不是一个确定值,因此无法进行描述。但其期望是个确定值,可以作为状态值函数的定义。
状态值函数:
当智能体采用策略π\piπ时,累积回报服从一个分布,累积回报在状态s处的期望值定义为状态-值函数:
相应地,状态-行为值函数为:
状态值函数与状态-行为值函数的贝尔曼方程
计算过程:a->s->a`(有行动了之后才有RsaR_s^aRsa)
根据策略最优定理知道,当值函数最优时采取的策略也是最优的。反过来,策略最优时值函数也最优。我们就是要max(值函数)
强化学习算法分类:
另外:
强化学习算法:
根据策略是否是随机的,分为确定性策略强化学习和随机性策略强化学习。
根据转移概率是否已知可以分为基于模型的强化学习算法和无模型的强化学习算法。
根据回报函数是否已知,可以分为强化学习和逆向强化学习。逆向强化学习是根据专家实例将回报函数学出来。
第二讲笔记:
- 利用动态规划可以解决的问题需要满足两个条件:(1)整个优化问题可以分解为多个子优化问题,子优化问题的解可以被存储和重复利用。
- 状态值函数的计算:
状态s处的值函数υπ(s){\upsilon _\pi }\left( s \right)υπ(s),可以利用后继状态的值函数υπ(s′){\upsilon _\pi }\left( {s'} \right)υπ(s′