
强化学习
强化学习基础知识,算法等
沐念丶
少一些功利主义的追求,多一些不为什么的坚持!
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Gym画图
Gym画图首先导入gym和gym中的rendering模块import gymfrom gym.envs.classic_control import rendering定义一个环境类,该类继承gym.Env,同时添加元数据,改变渲染环境时的参数class Environment(gym.Env): # 如果你不想改参数,下面可以不用写 metadata = { 'render.modes': ['human', 'rgb_array'], 'vi原创 2020-07-08 20:26:02 · 1274 阅读 · 0 评论 -
多智能体强化学习(一)
在多智能体系统中,每个智能体通过与环境进行交互获取奖励值来学习改善自己的策略,从而获得该环境下最优策略的过程。在单智能体强化学习中,智能体所在的环境是稳定不变的,但是在多智能体强化学习中,环境是复杂的、动态的,因此给学习过程带来很大的困难。多智能体强化学习面临的问题:维度爆炸:在单智能体强化学习中,需要存储状态值函数或动作—状态值函数。在多智能体强化学习中,状态空间变大,联结动作空间(联结动作是指每个智能体当前动作组合而成的多智能体系统当前时刻的动作,联结动作At=[a1,t,a2,t,...,an原创 2020-07-02 10:29:11 · 3099 阅读 · 0 评论 -
强化学习之探索与利用(二)
常用的探索方法衰减的ϵ\epsilonϵ-贪婪探索不确定行为优先探索乐观初始估计可信区间上限概率匹配基于信息价值的探索衰减的ϵ\epsilonϵ-贪婪探索衰减的ϵ\epsilonϵ-贪婪探索是在ϵ\epsilonϵ-贪婪探索上的改进,其核心思想是随着时间的推移,采用随机行为的概率ϵ\epsilonϵ越来越小。理论上随时间改变的ϵ\epsilonϵ-ttt由下式确定:其中ddd是次优行为与最优行为价值之间的相对差距。衰减的ϵ\epsilonϵ-贪婪探索能够使得总得后悔值呈现出与时间步长的对数关系,但该方原创 2020-07-01 15:40:29 · 1774 阅读 · 0 评论 -
强化学习之探索与利用(一)
探索与利用在强化学习问题中,探索与利用事一对矛盾:探索尝试不同的行为继而收集更多的信息,利用则是做出当前信息下的最佳决定。探索可能会牺牲一些短期利益,通过搜集更多信息而获得较为长期准确的利益估计;利用则侧重于对根据已掌握的信息而做到短期利益最大化。探索不能无止境地进行,否则就牺牲了太多地短期利益进而导致整体利益受损;同时也不能太看重短期利益而忽视一些未探索地可能会带来巨大利益地行为。因此如何平衡探索和利用是强化学习领域地一个课题。根据探索过程中使用的数据结构,可以将探索分为:依据状态行为空间的探索和参数原创 2020-07-01 09:55:09 · 2011 阅读 · 0 评论 -
基于策略的强化学习(四):深度确定性策略梯度(DDPG)算法
深度确定性策略梯度(DDPG)算法深度确定性策略梯度算法是使用深度学习技术、同时基于 Actor—Critic 算法的确定性策略算法。该算法中的 Actor 和 Critic 都使用深度神经网络来建立近似函数。由于该算法可以直接从 Actor 的策略生成确定的行为而不需要依据行为的概率分布进行采样而被称为确定性策略。该算法在学习阶段通过在确定性的行为基础上增加一个噪声函数而实现在确定性行为周围的小范围内探索。此外,该算法还为 Actor 和 Critic 网络各备份了一套参数用来计算行为价值的期待值以更原创 2020-06-30 15:58:45 · 2474 阅读 · 0 评论 -
基于策略的强化学习(三):Actor—Critic算法
Actor—Critic算法Actor—Critic算法的名字很形象,包含一个策略函数和行为价值函数,其中策略函数充当演员(Actor),生成行为与环境交互;行为价值函数充当(Critic),负责评价演员的表现,并指导演员的后续行为动作。Critic 的行为价值函数是基于策略 πθ 的一个近似:基于此,Actor—Critic算法遵循一个近似的策略梯度进行学习:Critic 在算法中充当着策略评估的角色,由于 Critic 的行为价值函数也是带参数 (w) 的,这意味着它也需要学习以便更准确的评估一个策原创 2020-06-30 15:42:47 · 1448 阅读 · 0 评论 -
基于策略的强化学习(二)
常用的基于线性特征组合的策略Softmax策略高斯策略Softmax策略Softmax策略是应用于离散行为空间的一种常用策略。该策略使用描述状态和行为的特征φ(s,a)与参数的线性组合来权衡一个行为发生的几率:相应的分值函数为:假设一个个体的行为空间为[a0,a1,a2],给定一个策略π(θ),在某一状态s下分别采取三个行为得到的奖励为 -1,10,-1,同时计算得到的三个动作对应的特征与参数的线性组合φ(s,a)Tθ结果分别为 4,5,9,则该状态下特征与参数线性组合的平均值为 6,那么三个行为在原创 2020-06-30 11:19:50 · 697 阅读 · 0 评论 -
基于策略的强化学习(一)
基于策略的强化学习基于策略的强化学习解决的问题解决行为空间连续、观测受限、随机策略的强化学习等问题策略目标函数在基于策略的强化学习中,策略π可以被描述为一个包含参数θ的函数: 该函数确定了在给定的状态和一定的参数设置下,采取任何可能行为的概率,是一个概率密度函数。在实际应用这个策略时,选择最大概率对应的行为或者以此为基础进行一定程度的采样探索。参数θ决定了策略的具体形式。因而求解基于策略的学习问题转变为如何确定策略函数的参数θ。通过设计一个基于参数θ的目标函数J(θ),通过相应的算法寻找最原创 2020-06-30 10:34:13 · 1433 阅读 · 0 评论 -
强化学习概述
强化学习概述强化学习基本原理强化学习如何解决问题强化学习算法分类强化学习算法基于值函数的强化学习算法基于直接策略搜索的强化学习算法强化学习主要研究方向深度强化学习元强化学习逆向强化学习强化学习的应用典型深度强化学习AIphaGo服务链网元部署自主驾驶强化学习发展方向强化学习基本原理强化学习称为增强学习或再励学习(Reinforcement learning),是AlphaGo、AlphaGo ...原创 2020-04-02 10:10:10 · 493 阅读 · 0 评论