
强化学习及深度强化学习
文章平均质量分 72
强化学习
半月夏微凉
非淡泊无以明志,非宁静无以致远
展开
-
强化学习资源列表
人工智能是21世纪最激动人心的技术之一。人工智能,就是像人一样的智能,而人的智能包括感知、决策和认知(从直觉到推理、规划、意识等)。其中,感知解决what,深度学习已经超越人类水平;决策解决how,强化学习在游戏和机器人等领域取得了一定效果;认知解决why,知识图谱、因果推理和持续学习等正在研究。强化学习,采用反馈学习的方式解决序贯决策问题,因此必然是通往通用人工智能的终极钥匙。视频书籍Re......原创 2020-02-28 00:39:59 · 867 阅读 · 0 评论 -
强化学习导论第二版
我的GitHub正在整理Sutton和Barto的书籍Reinforcement Learning: An Introduction (2nd Edition),其中包括书籍的中文翻译、代码、疑问和习题答案等。这本书是强化学习入门的经典教材(PS:网上大家都这么说),虽然这本书2018年就已经出版,但是前两年我一直忙于课题研究,没有静下心来看这本书。最近一个月才打算看这本书,因为没看这本书总觉得...原创 2020-03-24 15:46:49 · 3953 阅读 · 4 评论 -
强化学习简介
Review: Markov decision process(折扣)马尔可夫决策过程:M=(S,A,P,R,γ)M=(S,A,P,R,\gamma)M=(S,A,P,R,γ)。其中SSS是状态集合。AAA是动作集合。PPP为S×A×S→[0,1]S\times A\times S\to [0,1]S×A×S→[0,1]的映射,表示转移概率分布P(s′∣s,a)P(s'|s,a)P(s′∣s,...原创 2020-04-26 11:01:44 · 732 阅读 · 0 评论 -
强化学习的基础知识以及如何应用它
如今,机器学习 (Machine Learning, ML) 和深度学习 (Deep Learning, DL) 领域中有多个子任务。 例如,集群化 (Clusterization)、计算机视觉 (Computer Vision, CV)、自然语言处理 (Natural Language Processing, NLP)、推荐系统 (Recommendation Systems, RecSys) 等等。 但是,所有这些任务都可以分为两类 ML 问题,即监督学习 (Supervised Learning) 或原创 2022-04-08 00:08:28 · 2175 阅读 · 0 评论 -
完整的强化学习词典
每当我开始学习一个对我来说是新的学科时,我发现最难应付的是它的新术语。 每个领域都有很多术语和定义,对于外人来说完全是晦涩难懂的,并且会使新手的第一步变得相当困难。当我踏入这个世界或强化学习的第一步时,我被每隔一行出现的新术语所震撼,并且总是让我感到惊讶的是,这些复杂的单词背后是多么简单而合乎逻辑的想法。 因此,我决定用我自己的话把它们都写下来,这样我就可以随时查找它们,以防我忘记了。 这本词典就是这样诞生的。这不是强化学习的介绍文章,而是在学习时提供帮助的补充工具。 如果你也想在这个领域开始你的道路,我可原创 2022-06-10 22:51:36 · 394 阅读 · 1 评论 -
value iteration和Q-learning算法
Value iteration 和 Q-learning 构成了强化学习 (Reinforcement Learning, RL) 的两个基本算法。 过去 10 年 RL 中的许多惊人壮举,例如 Atari 的 Deep Q-Learning 或 AlphaGo,都植根于这些基础。 在这篇博客中,我们将介绍 RL 用来描述世界的基础模型,即马尔可夫决策过程 (Markov decision process, MDP),以及执行 RL 的两种算法:value iteration 和 Q-learning。 在原创 2022-03-22 19:19:51 · 2316 阅读 · 0 评论 -
Model-free强化学习算法
Model-free强化学习算法原创 2022-06-13 22:23:10 · 449 阅读 · 0 评论 -
RL Python练习
强化学习python练习原创 2022-06-10 00:24:58 · 262 阅读 · 0 评论 -
强化学习绘图技巧
1. sns.tsplot画时间序列图使用该工具包需要添加:import seaborn as sns一般同时还会添加这个工具包:import matplotlib.pyplot as plt假设画图的实验数据如下所示:有4种算法,每种算法的实验结果数据表示维二维数组(M*N),数组的行数M表示该算法跑了多少次,数组的列数N表示每次该算法跑了多少个时间步。def getdata(): basecond = [[18, 20, 19, 18, 13, 4, 1],原创 2021-06-10 17:10:33 · 2981 阅读 · 4 评论 -
Theory of Reinforcement Learning
官方网址2020(8.31-9.4): https://simons.berkeley.edu/workshops/rl-2020-bc视频网址2020(8.31-9.4): [youtube]原创 2020-09-05 16:32:09 · 254 阅读 · 0 评论 -
深度强化学习的未来
参考资源[1] The future of deep-reinforcement learning, our contemporary AI superhero – ProWellTech原创 2020-08-28 18:47:03 · 341 阅读 · 0 评论 -
OpenAI Gym简介及配置
1. OpenAI GymOpenAI Gym是用于开发和比较强化学习算法的工具包。 这是Gym开放源代码库,可让您访问一组标准化的环境。OpenAI Gym包含的环境如下:CartPole-v0Pendulum-v0MountainCar-v0MountainCarContinuous-v0BipedalWalker-v2Humanoid-V1Riverraid-v0Breakout-v0Pong-v0MsPacman-v0SpaceInvaders-v0Seaquest-v原创 2020-06-09 16:45:14 · 2076 阅读 · 0 评论 -
PPO算法详解
原文:Proximal Policy Optimization Algorithms [arXiv] [GitHub]1. PPO算法思想PPO算法是一种新型的Policy Gradient算法,Policy Gradient算法对步长十分敏感,但是又难以选择合适的步长,在训练过程中新旧策略的的变化差异如果过大则不利于学习。PPO提出了新的目标函数可以再多个训练步骤实现小批量的更新,解决了Policy Gradient算法中步长难以确定的问题。其实TRPO也是为了解决这个思想但是相比于TRPO算法PPO原创 2020-05-27 23:13:50 · 22680 阅读 · 0 评论 -
强化学习及深度强化学习面试题
什么是强化学习?强化学习由环境、动作和奖励组成,强化学习的目标是使得作出的一系列决策得到的总的奖励的期望最大化。强化学习和监督学习、无监督学习的区别是什么?监督学习带有标签;无监督学习没有标签;强化学习使用未标记的数据,根据延迟奖励学习策略。强化学习适合解决什么样子的问题?模型输出的动作必须要能够改变环境的状态,并且模型能够获得环境的反馈(奖惩),同时状态应该是可重复到达的(...原创 2020-04-24 12:02:04 · 3834 阅读 · 1 评论 -
深度强化学习中的泛化
Overfitting in Supervised Learning机器学习是一门学科,其中给定了一些训练数据\环境,我们希望找到一个优化目标的模型,但其目的是在训练期间从未见过的数据上表现出色。通常将其称为Generalization,即一种学习某些东西的能力,这些东西超出了训练环境的特定范围。为了做到这一点,我们通常要求训练数据的分布代表我们真正希望表现良好的真实数据分布。我们将数据拆分为...原创 2020-04-25 23:19:39 · 5369 阅读 · 0 评论 -
量化强化学习中的泛化
我们将发布CoinRun,这是一种训练环境,它为agent将其经验转移到新颖情况中的能力提供了度量标准,并且已经帮助澄清了强化学习中的长期难题。CoinRun在复杂性方面取得了理想的平衡:环境比传统的平台游戏(如Sonic)简单,但仍对最先进的算法提出了有价值的泛化挑战。即使是令人印象深刻的RL策略,也经常在没有监督学习技术(如dropout和batch normalization)的情况下进行...原创 2020-04-26 08:23:53 · 1424 阅读 · 0 评论 -
Relational Deep Reinforcement Learning
Abstract我们介绍了一种深度强化学习的方法,它通过结构化感知和关系推理提高了传统方法的效率、泛化能力和可解释性。它使用self-attention来迭代推理场景中实体之间的关系,并指导无模型策略。我们的结果表明,在一种名为Box-World的新的导航和规划任务中,我们的agent找到了可解释的解决方案,这些解决方案在样本复杂性、泛化到比训练期间所经历的更复杂的场景的能力以及整体性能方面都有...原创 2020-04-25 11:32:59 · 1015 阅读 · 0 评论 -
Relational Reinforcement Learning: An Overview
Abstract关系强化学习(RRL)既是一个年轻的领域,又是一个古老的领域。 在本文中,我们追溯了该领域的历史和相关学科,概述了一些当前的工作和有希望的新方向,并调查了未来的研究问题和机会。Introduction长期以来,将学习与解决问题相结合一直是人工智能的梦想。 尽管这似乎与分而治之的原则背道而驰,但仍有许多充分的理由采用这种综合方法。 解决问题通常在计算上很困难,并且如果不学习,a...原创 2020-04-25 22:39:31 · 733 阅读 · 0 评论