
强化学习笔记
文章平均质量分 93
本专栏记录在学习强化学习时的一些笔记
AaronXueNF
这个作者很懒,什么都没留下…
展开
-
强化学习基础知识笔记[7] - Policy Gradient
参考资料[1] 强化学习进阶 第六讲 策略梯度方法本文主要是对该资料学习的笔记,并且加入了一些自己的想法,如有错误欢迎指出。Value based 与 Policy basedValue based值函数方法包括策略评估与策略改善两个步骤。最典型的为前面学习的DQN方法。其优化目标为:寻找最优θ,拟合值函数Qθ(s,a)Q_{\theta}(s,a)Qθ(s,a)(策略评估);在值函数基础上选择最佳策略argmaxaQθ(s,a)argmax_a Q_{\theta}(s,a)argma原创 2021-11-13 20:58:09 · 980 阅读 · 0 评论 -
强化学习基础知识笔记[6] - DQN
参考资料[1] 深度强化学习系列 第一讲 DQN本文主要是对该资料学习的笔记,并且加入了一些自己的想法,如有错误欢迎指出。DQN算法引入DQN算法在Q-Learning算法上改进而来,具体改进三点:利用卷积神经网络逼近行为值函数该逼近方法属于非线性逼近。此处的值函数对应一组参数,为神经网络中每层网络的权重,用θ表示。此时值函数记为:Q(s,a;θ)Q(s,a;\theta)Q(s,a;θ)。DQN所用神经网络为三个卷积层加两个全连接层。利用经验回放训练强化学习过程DQN中Agent原创 2021-11-09 16:49:16 · 1016 阅读 · 0 评论 -
强化学习基础知识笔记[5] - 值函数逼近
参考资料[1] 强化学习入门 第五讲 值函数逼近本文主要是对该资料学习的笔记,并且加入了一些自己的想法,如有错误欢迎指出。强化学习的分类无模型强化学习 - 理论强化学习的核心问题强化学习的核心问题为:策略评估部分:值函数、状态-行为值函数的估计问题!策略改善部分:给定值函数下,π(a∣s)\pi(a|s)π(a∣s)的选取问题!回报函数、值函数定义累计回报函数Gt=Rt+1+γRt+2+...=∑k=0∞γkRt+k+1(1.1) G_t = R_{t+1} + \gamma原创 2021-10-19 11:13:33 · 441 阅读 · 0 评论 -
强化学习基础知识笔记[4] - 时间差分法
参考资料[1] 强化学习入门 第四讲 时间差分法(TD方法)本文主要是对该资料学习的笔记,并且加入了一些自己的想法,如有错误欢迎指出。强化学习的分类无模型强化学习 - 理论强化学习的核心问题强化学习的核心问题为:策略评估部分:值函数、状态-行为值函数的估计问题!策略改善部分:给定值函数下,π(a∣s)\pi(a|s)π(a∣s)的选取问题!回报函数、值函数定义累计回报函数Gt=Rt+1+γRt+2+...=∑k=0∞γkRt+k+1(1.1) G_t = R_{t+1} +原创 2021-10-11 21:30:53 · 609 阅读 · 0 评论 -
强化学习基础知识笔记[3] - 蒙特卡罗方法
参考资料[1] 强化学习入门 第三讲 蒙特卡罗方法[2] 重要性采样本文主要是对该资料学习的笔记,并且加入了一些自己的想法,如有错误欢迎指出。强化学习的分类无模型强化学习 - 理论在之前的学习中,若已知模型时,马尔科夫决策过程可以利用动态规划求解。其过程无非为两大部分:策略评估和策略改善。基于模型的强化学习值函数计算vk+1(s)=∑a∈Aπ(a∣s)(Rsa+γ∑s′Pss′avk(s′))(1) v_{k+1} (s) = \sum_{a \in A} \pi(a|s)\left(原创 2021-10-07 22:08:36 · 318 阅读 · 0 评论 -
强化学习基础知识笔记[2] - 基于模型的动态规划
参考资料[1] 强化学习入门 第二讲 基于模型的动态规划方法强化学习的分类分类如上图所示,需要说明的是基于模型的动态规划方法知道转移概率PPP、立即回报函数RRR、衰减因子γ\gammaγ,而无模型的强化学习不知道。动态规划的理解动态-状态的变化;规划-优化方法。动态规划可解决的问题的两个条件:可分解为多个子问题子问题的解可存储并重复利用v∗(s)=maxaRsa+γ∑s∈SPss′av∗(s′)(1.1) v^*(s) = max_{a}R^a_{s} + \gamma\sum_原创 2021-10-06 17:34:47 · 223 阅读 · 0 评论 -
强化学习基础知识笔记[1] - 马尔可夫决策过程
强化学习基本原理智能体通过动作A与环境进行交互,形成状态S->S’的改变并得到回报R。在不断的交互过程中,强化学习利用交互得到的数据修正自身的动作策略,最终习得该环境下完成相应任务的最优策略。参考资料[1] 强化学习入门 第一讲 MDP预备知识 - 马尔可夫概念马尔可夫性马尔可夫性指系统下一状态St+1S_{t+1}St+1仅与当前状态sts_{t}st有关,与以前的状态无关,当前状态可以反映所有历史状态。公式描述:P[st+1∣st]=P[st+1∣s1,s2,...,st](1原创 2021-10-04 18:02:01 · 475 阅读 · 0 评论 -
强化学习算法[1] Q-Learning笔记
Q-learning 解决的问题Q-Learning解决决策问题,即在目前所处的环境下,采取何种行动才能获得最大收益。需要注意的是,采取Q-Learning算法求解问题时需要保证所处的状态S为有限可列个,在每种状态下采取的行动a也为有限可列个!Q-learning 算法简介Q-Learning是一种强化学习中的value-based的算法,即根据目前所处状态下每个可采取行动的value,即Q值,Q(S,a)决策下一步行动。该算法实现的关键在于Q-table的建立与更新,该表如下所示:a原创 2021-10-03 14:58:28 · 344 阅读 · 0 评论