
强化学习
文章平均质量分 97
强化学习相关笔记
yuan〇
逆水行舟用力撑,一篙松劲退千寻。领域方向:【决策规划】
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
【Highway-env】IntersectionEnv代码阅读
方法计算的是合作智能体的多目标奖励。对于每个动作,它计算所有控制车辆的奖励,并将这些奖励按名称聚合起来,然后除以车辆的数量得到平均奖励。这个方法返回的是一个字典,其中每个键都是一个奖励的名称,每个值都是对应的平均奖励。是一个三元组(例,(‘il1’,‘o1’,0)),判断车辆是否在车道上,是否抵达目的地,且是否在车道坐标系中的纵向坐标大于。通过对所有控制的车辆执行某个动作所获得的奖励进行求和,然后除以车辆的数量来得到平均奖励。这部分的代码大致可以分为以下几个部分,我也将从以下几个方面进行分析。原创 2023-11-19 23:46:14 · 5807 阅读 · 2 评论 -
【rl-agents代码学习】02——DQN算法
本文将继续探索rl-agents中相关DQN算法的实现。下面的介绍将会以`intersection`这个环境为例,首先介绍一下Highway-env中的`intersection-v1`。Highway-env中相关文档——[http://highway-env.farama.org/environments/intersection/](http://highway-env.farama.org/environments/intersection/)。highway-env中的环境可以通过配置文件进行原创 2023-11-14 21:10:26 · 5964 阅读 · 3 评论 -
【rl-agents代码学习】01——总体框架
学习一下rl-agents的项目结构以及代码实现思路。原创 2023-11-13 12:28:06 · 4906 阅读 · 0 评论 -
【强化学习】18 —— SAC( Soft Actor-Critic)
之前的章节提到过在线策略算法的采样效率比较低,我们通常更倾向于使用离线策略算法。然而,虽然 DDPG 是离线策略算法,但是它的训练非常不稳定,收敛性较差,对超参数比较敏感,也难以适应不同的复杂环境。2018 年,一个更加稳定的离线策略算法 Soft Actor-Critic(SAC)被提出。SAC 的前身是 Soft Q-learning,它们都属于最大熵强化学习的范畴。Soft Q-learning 不存在一个显式的策略函数,而是使用一个函数QQQ的波尔兹曼分布,在连续空间下求解非常麻烦。于是 SAC 提原创 2023-11-12 16:02:43 · 7227 阅读 · 2 评论 -
【强化学习】17 ——DDPG(Deep Deterministic Policy Gradient)
之前的章节介绍了基于策略梯度的算法 REINFORCE、Actor-Critic 以及两个改进算法——TRPO 和 PPO。这类算法有一个共同的特点:它们都是在线策略算法,这意味着它们的样本效率(sample efficiency)比较低。本章将要介绍的深度确定性策略梯度(deep deterministic policy gradient,DDPG)算法通过使用离线的数据以及Belllman等式去学习QQQ函数,并利用QQQ函数去学习策略。原创 2023-11-05 12:29:13 · 5692 阅读 · 0 评论 -
【强化学习】16 ——PPO(Proximal Policy Optimization)
TRPO算法在很多场景上的应用都很成功,但是我们也发现它的计算过程非常复杂,每一步更新的运算量非常大。于是,TRPO 算法的改进版——PPO 算法在 2017 年被提出,PPO 基于 TRPO 的思想,但是其算法实现更加简单。并且大量的实验结果表明,与 TRPO 相比,PPO 能学习得一样好(甚至更快),这使得 PPO 成为非常流行的强化学习算法。原创 2023-11-04 19:44:18 · 5168 阅读 · 0 评论 -
【强化学习】15 —— TRPO(Trust Region Policy Optimization)
之前介绍的基于策略的方法包括策略梯度算法和 Actor-Critic 算法。这些方法虽然简单、直观,但在实际应用过程中会遇到训练不稳定的情况。回顾一下基于策略的方法:参数化智能体的策略,并设计衡量策略好坏的目标函数,通过梯度上升的方法来最大化这个目标函数,使得策略最优。这种算法有一个明显的缺点:当策略网络是深度模型时,沿着策略梯度更新参数,很有可能由于步长太长,策略突然显著变差,进而影响训练效果;同时由于采集到的数据的分布会随策略的更新而变化,步长太长,更新的策略可能变差,导致采集到的数据变差,进而陷入恶性原创 2023-11-03 23:00:33 · 5342 阅读 · 0 评论 -
【强化学习】14 —— A3C(Asynchronous Advantage Actor Critic)
A3C算法()于2016年被谷歌DeepMind团队提出。A3C是一种非常有效的深度强化学习算法,在围棋、星际争霸等复杂任务上已经取得了很好的效果。接下来,我们先从A3C的名称入手,去解析这个算法。A3C代表了异步优势动作评价(Asynchronous Advantage Actor Critic):因为算法涉及并行执行一组环境。与DQN不同,DQN中单个神经网络代表的单个智能体与单个环境交互,而A3C利用上述多个化身来更有效地学习。在A3C中,有一个(global network)和。原创 2023-11-02 13:45:54 · 17201 阅读 · 1 评论 -
【强化学习】13 —— Actor-Critic 算法
可以发现,Actor-Critic 算法很快便能收敛到最优策略,并且训练过程非常稳定,抖动情况相比 REINFORCE 算法有了明显的改进,这说明价值函数的引入减小了方差。在 REINFORCE 算法中,目标函数的梯度中有一项轨迹回报,用于指导策略的更新。,代替蒙特卡洛采样得到的回报,这便是形式(4)。原创 2023-10-31 22:16:34 · 5253 阅读 · 0 评论 -
【强化学习】12 —— 策略梯度(REINFORCE )
之前在【强化学习】09——价值和策略近似逼近方法中讨论过使用参数θ\thetaθ来近似价值函数VVV或状态价值函数QQQVθs≈VπsQθsa≈QπsaVθsQθsa≈Vπs≈Qπsa之后,再通过价值函数推导出相应的策略(比如利用ϵ\epsilonϵ-贪婪策略)。本节将主要讨论直接参数化策略的方法πθsaπθsa。策略可以是确定性的——aπθsaπθs,也可以是随机的——原创 2023-10-30 22:53:05 · 10444 阅读 · 1 评论 -
【强化学习】11 —— Double DQN算法与Dueling DQN算法
可以看到由于数据点的分布,使得拟合出的价值函数无法与真实的价值函数吻合,甚至在部分区域产生了明显的偏差。Dueling DQN 是 DQN 另一种的改进算法,它在传统 DQN 的基础上只进行了微小的改动,但却能大幅提升 DQN 的表现。这样,即使其中一套神经网络的某个动作存在比较严重的过高估计问题,由于另一套神经网络的存在,这个动作最终使用的值不会存在很大的过高估计问题。.在同一个状态下,所有动作的优势值之和为 0,因为所有动作的动作价值的期望就是这个状态的状态价值。环境的状态包括倒立摆角度的正弦值。原创 2023-10-30 10:10:11 · 6436 阅读 · 0 评论 -
【强化学习】10 —— DQN算法
在车杆环境中,有一辆小车,智能体的任务是通过左右移动保持车上的杆竖直,若杆的倾斜度数过大,或者车子离初始位置左右的偏离程度过大,或者坚持时间到达 500 帧,则游戏结束。智能体的状态是一个维数为 4 的向量,每一维都是连续的,其动作是离散的,动作空间大小为 2。的,我们每次训练神经网络的时候从训练数据中随机采样一个或若干个数据来进行梯度下降,随着学习的不断进行,每一个训练数据会被使用多次。如果两套网络的参数随时保持一致,则仍为原先不够稳定的算法。具体而言,目标网络使用训练网络的一套较旧的参数,训练网络。原创 2023-10-28 21:16:52 · 4698 阅读 · 1 评论 -
【强化学习】09——价值和策略近似逼近方法
之前所有模型的做法都是基于创建一个查询表,在表中维护状态值函数VsV(s)Vs或状态-动作值函数QsaQ(s,a)Qsa。但对于大规模的MDP时,为每一个状态维护VsV(s)Vs或为每个状态-动作对维护QsaQ(s,a)Qsa存储状态或动作需要大量的存储空间对于每一个状态去学习相应的价值需要耗费大量时间大规模问题状态或者状态-动作空间非常大连续的状态或动作空间围棋博弈(1017010^{170}10170的状态空间)原创 2023-10-26 16:05:34 · 4249 阅读 · 0 评论 -
【强化学习】08——规划与学习(采样方法|决策时规划)
均匀随机采样(uniformly sampling)会使得部分采样的结果对实际的更新毫无作用。如下图所示,在开始时,只有靠近终点部分的更新会产生作用,而其他情况则不会。是指很多状态的值发生变化带动前继状态的值发生变化。但有的值改变很多,有的改变很少,因此需要根据紧急程度,给这些更新设置优先度进行更新。(expected updates)的方法。但这样会浪费很多计算资源在一些低概率的状态转移(transitions)上,因此引入。(Prioritized Sweeping)可以解决上述问题。原创 2023-10-25 12:55:02 · 4668 阅读 · 0 评论 -
【强化学习】07——规划与学习(Dyna-Q)
前置知识回顾策略值函数估计(Policy Evaluation)策略提升(Policy Improvement)模型(Model)规划(Planning)规划与学习(Planning and Learning)Dyna (集成规划、决策和学习)原创 2023-10-24 20:11:38 · 4333 阅读 · 0 评论 -
【强化学习】06 —— 基于无模型的强化学习(Control)
继续上一讲的内容【强化学习】05 —— 基于无模型的强化学习(PredictionElevatorBioreactorHelicopterQuakeGame of GoMDP模型是已知的,但是规模太大,只能通过采样进行MDP模型是未知的,只能通过在经验中进行采样在线策略学习和离线策略学习。通常来说,在线策略学习要求使用在当前策略下采样得到的样本进行学习,一旦策略被更新,当前的样本就被放弃了,就好像在水龙头下用自来水洗手;原创 2023-10-23 23:24:48 · 4433 阅读 · 0 评论 -
【强化学习】05 —— 基于无模型的强化学习(Prediction)
上一节讲到的动态规划算法(【强化学习】04 ——动态规划算法)要求马尔可夫决策过程是已知的,即要求与智能体交互的环境是完全已知的(例如迷宫或者给定规则的网格世界)。在此条件下,智能体其实并不需要和环境真正交互来采样数据,直接用动态规划算法就可以解出最优价值或策略。这类已经给定一个MDP模型(即,状态转移Pss′aPss′a和奖励函数RsRs明确给定) 的算法可以称为基于模型的强化学习。基于模型来计算最优价值函数和学习最优的策略。原创 2023-10-03 22:44:46 · 5030 阅读 · 0 评论 -
【强化学习】04 ——动态规划算法
动态规划)是程序设计算法中非常重要的内容,能够高效解决一些经典问题,例如背包问题和最短路径规划。动态规划的基本思想是将待求解问题分解成若干个子问题,先求解子问题,然后从这些子问题的解得到目标问题的解。最优子结构:最优解可以被分解为子问题。最优性原理适用:重叠子问题:子问题经常重复出现。解决方案可以被缓存和重复使用。马尔可夫决策过程符合这两个属性。贝尔曼方程提供了递归分解。价值函数存储和重用解决方案。基于动态规划的强化学习算法主要有两种:一是策略迭代。原创 2023-09-29 18:45:21 · 5182 阅读 · 0 评论 -
【强化学习】03 ——马尔可夫决策过程
在此推荐另一篇文章【自动驾驶决策规划】POMDP之Introduction“The future is independent of the past given the present”未来状态的概率分布只与当前状态有关,而与过去状态无关。定义:性质:Pss′\boldsymbol{P}_{ss^{\prime}}Pss′为从状态sss转移到状态s′s's′的概率,又称一步状态转移概率。P\boldsymbol{P}P为一步状态转移矩阵。P[St+1∣St]=P[St+1∣S1,…,St]Pss′=P[原创 2023-09-24 23:29:14 · 1979 阅读 · 1 评论 -
【强化学习】02—— 探索与利用
探索和利用是强化学习试错型学习(trial-and-error)中不可少的一部分;多臂老虎机问题与强化学习的一大区别在于其与环境的交互并不会改变环境,即多臂老虎机的每次交互的结果和以往的动作无关,所以可看作无状态的强化学习多臂老虎机是研究探索和利用理论的最佳环境(理论渐进最优收敛为OlogTO(\log T)OlogT各类探索和利用方法在RL,特别是在多臂老虎机中常用。原创 2023-09-21 22:21:01 · 1499 阅读 · 0 评论 -
【强化学习】01—— 强化学习简介
通过从交互学习中实现目标的计算方法感知:在某种程度上感知周围环境行动:采取行动来影响状态或者达到目标目标:随着时间的推移,最大化奖励。原创 2023-09-21 15:21:49 · 636 阅读 · 0 评论 -
【自动驾驶决策规划】POMDP之Introduction
本文是我学习POMDP相关的笔记,由于个人能力所限,可能有所纰漏,还请批评指正。初学者,希望和大家共同学习.原创 2023-09-14 08:44:12 · 8496 阅读 · 3 评论 -
【论文笔记】—— Survey of Deep Reinforcement Learning for Motion Planning of Autonomous Vehicles
DRL系统构成:环境建模、建模抽象、状态和感知模型的描述、适当的奖励函数以及底层神经网络的实现。本文介绍了基于不同层和观测模型的策略决策,例如连续和离散状态表示、基于网格和基于相机的解决方案等等。本文根据自动驾驶的不同任务和级别,如车辆跟踪、车道保持、轨迹跟踪、并道或在密集交通中行驶等,对最先进的解决方案进行了系统研究。原创 2023-10-01 23:49:31 · 4708 阅读 · 0 评论