- 博客(76)
- 资源 (1)
- 收藏
- 关注

原创 UCB CS285课程笔记目录
1. 监督学习与强化学习(Imitation Learning)2. Model-Free方法3. Model-Based方法4. Exploration Method5. RL理论与DRL算法设计6. 概率图角度理解强化学习框架(变分推断)7. Inverse RL8. Transfer Learning, Multi-task Learning, Meta-learning...
2021-02-23 10:34:48
1377
3

原创 MIT 18.02 多变量微积分笔记总目录
0.0 写给自己这部分只写给自己,建议直接跳过。(只是一些自己的感悟)一周多之前开始了复习本科内容的征程。一切的一切都源于保研复试,当时被老师问到什么是安培环路定理,明明是学过的内容我竟然忘了,竟然忘了!之后大四的这一年我一直提醒自己要好好恶补电磁场理论,以至于大学期间所有的理论实践课程。还好如我所愿,快毕业的这段时间真挺充裕的,再接再厉!。学完18.01之后再看18.02 多变量微积分真的...
2019-06-12 20:33:15
7212
1

原创 MIT 18.01 单变量微积分笔记——总目录及对应链接
0. 写在前面这篇总目录主要参考了MIT 18.01单变量微积分的课程结构,当然我也做了一些我认为更合理的思路上的改动。给自己定个小目标,争取一周之内填补目录上的几乎所有内容,我每写完一篇就在本目录中加一个超链接(现在已有三条链接),有兴趣看的伙伴直接打开这个目录进入想看的章节即可。1. 导数和微分(Derivative and Differential):1.1 导数的定义1.2 求导(...
2019-05-31 22:48:19
13793
1
原创 Lattice Planner从入门到放弃
Lattice Planner相关背景和更正式的公式推导可以直接参考其原始论文《Optimal Trajectory Generation for Dynamic Street Scenarios in a Frenét Frame》(ICRA 2010),本文侧重于Lattic planner理论和代码的结合。1. Lattice Planner基本流程Lattice Planner算法(含轨迹跟踪算法)的基本流程如下所示:在笛卡尔坐标系中获取车辆的全局规划路径点(包括起始点和终点)的坐标,如有
2023-06-18 17:45:59
1956
原创 OpenCDA代码学习笔记(1)——CARLA-SUMO联合仿真demo
OpenCDA的主要文件结构就是根目录下的opencda,其中assets包含了各类测试用例的地图文件或对应SUMO中的.net.xml和.rou.xml文件等;文件夹中的对应CARLA 0.9.11中的Co-simulation部分中同名的文件夹;core文件夹非常重要,包含了从感知到决策规划的所有模块,此外还实现了地图管理等功能;customize文件夹中包含了一些自定义的算法,例如yolov5模型的导入就在中;最后,文件夹包含了OpenCDA所有的测试用demo源文件(.yaml和.py。
2022-10-04 14:59:10
4296
2
原创 多智能体深度强化学习值分解方法总结(1)——VDN/QMIX/QTRAN/Qatten
最近准备把之前看过的MARL相关文章重新捡起来,一方面是综述,一方面是具体方法。因为我本人课题中的一部分使用了QMIX做应用,为之后思考可以改进的idea做准备。所以借这篇文章的机会重新回顾一下值分解的相关方法,本文先总结VDN/QMIX/QTRAN/Qatten这四篇文章,主要对每一篇文章中的理论及方法进行总结,尽量讲清楚这些方法的motivation,针对的具体问题,理论及从理论推导出的算法,一些算法结果记录和方法的局限性。
2022-09-11 10:31:59
2672
2
原创 《Grokking Deep Reinforcement Learning》笔记(Chapter 11-12)
Grokking Deep Reinforcement Learning》书Chapter 11-12的个人笔记
2022-07-06 11:35:53
477
原创 《Grokking Deep Reinforcement Learning》笔记(Chapter 8-10)
第8-10章重点讲解了基于值的RL算法。本书依然聚焦于强化学习问题中智能体与环境交互之后得到的feedback signal的形式,前7章包含了sequential and evaluative feedback,而DRL的目标是构建一个能够从sequential, evaluative and sampled feedback中学习的智能体. 深度强化学习是关于complex sequential decision-making problems under uncertainty的,其中complex
2022-06-12 16:34:34
417
原创 《Grokking Deep Reinforcement Learning》笔记目录
最近看完了《Grokking Deep Reinforcement Learning》这本书,内容强调的是理论和实践的结合,既有相关公式的回顾也有对应的实现代码,看完后受益匪浅。接下来的这一系列就是关于这本书各章节的笔记。Chapter 1~Chapter 2Chapter 3~Chapter 4Chapter 5~Chapter 7Chapter 8~Chapter 10Chapter 11~Chapter 12.........
2022-05-19 16:43:10
460
原创 《Grokking Deep Reinforcement Learning》笔记(Chapter 5-7)
文章目录Chapter 5评估策略的方法:MC类方法TD类方法:Chapter 6强化学习算法的组成部分提升策略的几种方法MC类方法TD类方法一些关于收敛性的讨论:Chapter 7**将λ−\lambda-λ−return与之前的on-policy SARSA和off-policy Q-learning相结合。**SARSA(λ\lambdaλ):**Model-based的几种算法:**Chapter 5主要内容:解决的是在environment transition dynamics未知的情况下p
2022-05-19 16:32:51
716
原创 《Grokking Deep Reinforcement Learning》笔记(Chapter 3-4)
《Grokking DRL》笔记(Chapter 3-4)Chapter 3主要内容:如何求解MDPs, agent的目标是什么,两种求解MDPs的算法(动态规划算法):value iteration (VI) and policy iteration (PI)本章内容只考虑sequential feedback。The objective of a decision-making agents: maximize the return: the sum of rewards (discounted
2022-05-19 15:21:36
344
原创 《Grokking Deep Reinforcement Learning》笔记(Chapter 1-2)
Chapter 1基本概念:DRL中的智能体只是做出决策的部分,其他部分都归属于环境environment.1. learn from sequential feedback会导致temporal credit assignment问题,智能体如何权衡Immediate and long-term goals(chapter 3 will cover this problem,解决办法是动态规划类算法)2. learn from evaluative feedback会导致“exploratio
2022-05-19 14:55:36
479
原创 综述文章笔记——《A Survey on Traffic Signal Control Methods》等
Traffic Signal Control(TSC)一些背景知识为什么要进行TSCTSC传统建模方式用强化学习算法解决TSC有哪些优点如何用RL方法框架描述TSC问题深度强化学习应用到TSC问题的流程分类依据如何评估算法算法的评价标准仿真环境的选择路网与车流的设定未来的研究方向引用本文总结的两篇综述文章:其他综述文章:...
2021-09-11 15:54:36
1666
原创 win10下星际争霸II和Pymarl环境配置
SMAC与Pymarl相关博文链接:ubuntu单独安装SMAC:https://blog.youkuaiyun.com/weixin_39059031/article/details/117247635非whiRL pymarl的算法库安装:https://blog.youkuaiyun.com/qq_38163755/article/details/109690507SMAC官方地址https://github.com/oxwhirl/smacpymarl官方地址https://github.com/oxwhi
2021-08-11 20:15:22
3387
2
原创 CS285课程笔记(4)——Exploration Method
1. 为什么要用引入exploration1.1 直观解释1.2 强化学习中的exploration-exploitation权衡1.3 不同类型问题下的optimal exploration strategy是否是可解的2. Bandits问题中的exploration2.1 Optimistic Exploration2.2 Posterior Sampling (Probability Matching)2.3 Information Gain3. 用于深度强化学习中的explorat
2021-07-12 21:11:17
651
1
原创 CS285课程笔记(6)——Inverse Reinforcement Learning
1. 为什么要引入Inverse Reinforcement Learning2. Inverse RL问题的定义3. 经典方法3.1 Feature Matching IRL & Maximum Margin Planning3.2 Maximum Entropy IRL4. 与深度学习结合的方法4.1 Guided Cost Learing Algorithm4.2 IRL & GANs...
2021-05-24 13:09:19
834
1
原创 CS285课程笔记(5.(2))——从概率图角度理解强化学习 (Control as Inference)
本文对应Lecture 19,重点时以概率图模型的视角看待强化学习,并推导出新算法。将RL问题等效为概率图模型中的推断问题1. Motivation (源自用强化学习对人类或动物行为建模)2. 用概率图模型重新RL问题建模3. Exact Inference (Control as Inference)4. Approximate Inference (Control as Variational Inference)5. 基于Soft Optimality的一些实际算法A. Q-learni
2021-04-30 12:02:09
760
原创 CS285课程笔记(5.(1))——从概率图角度理解强化学习(变分推断原理+VAE)
一、变分推断与生成模型(Variational Inference and Generative Models)二、用概率图模型和推断描述RL问题
2021-04-14 16:23:38
1124
原创 CS285课程笔记(3.1(1))——Model-free方法之Policy Gradient
Policy GradientActor CriticQ-learning
2021-03-04 18:44:26
818
2
原创 CS285课程笔记(1)——模仿学习(Imitation Learning)
1. 强化学习与监督学习的区别2. 模仿学习(Imitation Learning)
2021-02-23 10:34:13
1450
原创 强化学习实践笔记(1)——Q-learning、SARSA和SARSA(lambda)
概述本文介绍了单步q-learning和sarsa的原理和python实现(按照莫烦强化学习中的代码重新敲了一遍),基于eligibility trace1. Q-learning 算法原理2. SARSA算法原理3. Q-learning与SARSA的不同之处4. Q-learning python 实现5. SARSA python实现...
2020-10-05 18:41:32
1512
1
转载 Latex符号对照表
感谢博主的总结,这里转载方便自己平时快速找到。https://blog.youkuaiyun.com/zgj926503/article/details/52757631?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522160189222519724836739518%2522%252C%2522scm%2522%253A%252220140713.130102334…%2522%257D&request_id=16018922251972483
2020-10-05 18:05:38
3293
原创 深度强化学习笔记——DDPG原理及实现(pytorch)
概要DDPG算法原理(Deep Deterministic Policy Gradient)DDPG算法实现
2020-09-13 21:12:05
27418
8
原创 深度强化学习笔记——DQN原理与实现(pytorch+gym)
概要1. DQN(Deep Q-Network)基本原理1.11.22. DQN的pytorch实现2.1 所需要的环境配置2.2 DQN伪代码2.3
2020-08-29 15:51:09
11922
3
原创 深度强化学习笔记——基本方法分类与一般思路
概要本文梳理了一下台大李宏毅老师的深度强化学习系列课程内容。该课程主要是对无模型深度强化学习方法的一些大致介绍,将其分为大致三类:基于值函数的、基于梯度的方法、actor-critic的方法。(其他方法还有模仿学习imitation learning与逆强化学习inverse reinforcement learning)分类方法可以见下图:本文对三大类方法的基本思路进行阐述,为了写作的方便,文中的图大部分来自课件中的原图。有任何不准确的地方望指正!1. 基于梯度的方法(Policy-based
2020-08-23 21:04:09
1517
原创 ROS笔记——tf library相关
概要本文是我在看完官方tutorial和tf的论文《tf: The Transform Library》做的一些笔记。
2020-08-16 13:10:05
612
原创 Autoware源码分析——astar_search
1. 概要本文是对autoware中core_planning文件夹中astar_search功能包的相关文件组成和具体源码的分析,承接上一篇关于astar_avoid的分析。如果有理解有误的地方,望指正!2. 文件结构2.1 astar_avoid中与之有关的函数astar_avoid.cpp中的planAvoidWaypoints调用了astar_search中的astar_.makePlan()等函数,目的就是执行hybrid A* 算法。planAvoidWaypoints该函数使用
2020-08-02 23:30:55
2044
原创 Autoware源码分析——astar_avoid
概要本文是对autoware中waypoint_planner功能包的相关文件组成和具体节点的分析。由于程序比较复杂,我认为还存在一些不完整的地方,之后也会继续分析,继续更新。有任何错误或不足之处,望指正!waypoint_planner功能包的概述及整体结构Waypoint planner can be alternatively used to generate a set of waypoints to the destination. This package differs from la
2020-07-26 20:50:24
3846
2
原创 强化学习课程(David Silver)笔记(2)——MDP
马尔可夫过程马尔可夫收益过程(Markov Reward Process)马尔可夫决策过程(Markov Decision Process)如何求得最优解
2020-07-22 17:44:35
841
2
原创 【论文研读】路径规划中的Hybrid A*算法
涉及到的文献和网址算法简介STAGE 1: 启发式搜索+损失函数设计STAGE2: 对路径进行后处理
2020-07-19 14:16:27
9510
5
原创 强化学习课程(David Silver)笔记(1)——一些基本概念
1. 强化学习问题的描述2. 强化学习方法的分类3. 强化学习理论基础——马尔可夫决策过程
2020-07-18 22:09:25
1432
原创 《浪潮之巅》内容整理
(总结所用的逻辑结构就是从具体到抽象)一,IT行业相关的具体公司介绍引领和紧跟时代浪潮的公司曾经引领时代浪潮但现今落后于浪潮的公司曾经引领时代浪潮但已被浪潮淘汰的公司(或公司中的一些重要部门)二,对公司发展造成影响的因素:(暂时没有考虑逻辑顺序)IT行业/信息产业发展的规律(产业本客观存在的规律)硅谷的所处环境优势和地域文化(精神/文化)斯坦福大学对硅谷的影响(所处环境优势)硅谷独有的精神(重点就是创新和叛逆精神)资本的影响(IT产业发展的幕后推手)风险投资(上市前或
2020-07-15 16:41:10
4181
原创 Autoware管理器的算法与carla-autoware bridge示例程序分析
问题所在:差一个/waypoint_marker_publisher(点击waypoint_maker中的waypoint_loader会开启/waypoint_marker_publisher和/waypoint_replanner,目前考虑在launch文件中额外加入)另外,相差/config_waypoint_follower_rostopic(所在launch文件是my_motion_planning.launch)2. 相关的信息是:解决方法:https://answers.ros
2020-07-10 09:37:43
1685
原创 Carla Autoware及Carla ROS安装过程
1. 源码安装Carla-ROS-Bridge踩坑:第一次安装尝试了apt安装Carla-ROS-Bridge,运行时报错。为节省时间,我直接按照官网要求进行源码安装(开发者),我觉得apt安装和源码安装bridge出现报错的原因是一样的,因为用源码安装,在git clone过程中文件夹ros-bridge中的carla_msgs为空,对应ros-bridge的github网址中高亮的文件:2. 安装Autoware-Carla...
2020-05-21 15:57:09
4190
5
原创 Autoware 1.12.0 源码安装总结
Autoware 1.12.0 源码安装总结终于是跑通了autoware的demo,源码安装的过程中踩了挺多坑的,本文总结一下安装过程并记录遇到的问题。安装autoware之前最好大概搜索一下其他人的安装过程然后再去官网一步步安装,能少走很多弯路。(autoware的整个资源已经迁移到gitlab了,之前github主页也会提醒转到gitlab网站)一、配置及需要预先安装的软件autowa...
2020-04-03 09:26:43
3111
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人