
强化学习理论与实践
强化学习学习路上的点点滴滴
启人zhr
永不放弃,never give up
展开
-
DAI2020 SMARTS自动驾驶挑战赛(强化学习)总结+前三名思路
早在半个多月前,华为诺亚方舟举办的DAI2020 SMARTS自动驾驶挑战赛已经结束了,一直没写总结,一方面是想等前五名的汇报ppt发出来,可是官方一直没有公布ppt,我也就拿当时参加DAI会议的录制视频作参考写了总结。虽然比赛结果很可惜,没有拿到前五获奖,只取得了第七,但好歹也花费了2个月时间,不写点总结都对不起自己2个月的努力。[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传比赛介绍比赛背景为了推动自动驾驶的前沿研究,激发对驾驶中多智能体交互的研究,在今年的分布式人工智能大原创 2020-11-09 21:52:00 · 4270 阅读 · 6 评论 -
强化学习中的调参经验与编程技巧(on policy 篇)
在强化学习的训练过程中,常常会遇见以下问题在某一环境中可以work的超参数拿去训练别的环境却怎么训练不出来训练时熵在增大训练动作达到边界本文通过调试几个环境的案例来探究强化学习的调参方法1 pendulum摆锤这个环境可以看做连续控制中的入门环境了,环境初始时在一个随机的位置,目标是将其摆动以使其保持直立,它的状态维度为3,动作维度为1拟使用PPO解决这个问题,ppo的流程如下:使用Actor网络与环境交互一定步数,记录下(state, action, reward, v, done).原创 2020-08-31 00:44:49 · 3940 阅读 · 1 评论 -
强化学习与自动驾驶——Carla环境配置与benchmark解读
1.Carla ServerCarla目前的稳定版为0.8.2,https://github.com/carla-simulator/carla/releases/tag/0.8.2 即可下载,linux解压后命令行执行$ ./CarlaUE4.sh这将启动一个全屏的仿真窗口,你能使用WASD驾驶车辆实验中往往增加各种参数进行配置$ ./CarlaUE4.sh -carla-serve...原创 2019-10-30 23:33:50 · 8197 阅读 · 16 评论 -
强化学习实验中的绘图技巧-使用seaborn绘制paper中的图片
强化学习实验中的绘图技巧-使用seaborn绘制paper中的图片使用seaborn绘制折线图时参数数据可以传递ndarray或者pandas,不同的源数据对应的其他参数也略有不同.1. ndarray先看一个小例子def getdata(): basecond = [[18, 20, 19, 18, 13, 4, 1], ...原创 2019-07-27 21:21:18 · 8972 阅读 · 3 评论 -
强化学习中的基础概念和术语——spinning up文档翻译
Key Concepts and Terminology以下内容翻译自open ai 的spinning up文档,同时加入了一些自己的理解。原始内容来自spinningup文章目录Key Concepts and Terminology1.States and Observations2. Action Spaces3.Policies3.1 Deterministic Policies3....原创 2019-06-09 14:08:31 · 2706 阅读 · 0 评论 -
强化学习环境学习-gym[atari]-paper中的相关设置
0. gym 核心这部分的代码在gym/core.py中,原始基类为Env,主要可调用step,reset,render,close,seed几个方法,大体框架如下class Env(object): def reset(self): pass def step(self, action): pass def render(self, ...原创 2019-08-28 20:23:12 · 9646 阅读 · 7 评论 -
强化学习基础——形象化解释值函数含义以及期望的意义
1.值函数定义1.1 V函数我们先看一下经典的最短路问题,假设我们要求出起点s到终点g的最短路我们定义V∗(s)V^\ast(s)V∗(s)为sss到终点ggg的最短路,V∗(f)V^\ast(f)V∗(f) 为fff到终点ggg的最短路,以此类推,为了求出这个最短路,我们从终点开始算起:V∗(g)=0V∗(f)=1+V∗(g)=1V∗(d)=min{3+V∗(g),1+V∗(f)}\...原创 2019-09-17 10:53:59 · 1491 阅读 · 2 评论