
强化学习笔记
文章平均质量分 66
小郁同学
深度强化学习爱好者,算法路上的前行者。一直在寻找问题,一直也在解决问题。欢迎联系我,进行交流与讨论。
展开
-
D4RL Benchmark 安装教程Ubuntu20.04
前言offline RL最新的benchmark: D4RL发布了,在此记录一下安装过程中踩得坑我个人安装环境是ubuntu20.04官方项目地址D4RL:https://github.com/rail-berkeley/d4rl安装过程pip install git+https://github.com/rail-berkeley/d4rl@master#egg=d4rl运行完之后,那么坑就来了第一个就是,需要配置mujoco200和mujoco200_linux,虽然这俩文件夹都是下载m原创 2021-09-09 12:19:15 · 2771 阅读 · 4 评论 -
强化学习书籍与课程推荐
书籍1.Reinforcement Learning:An Introduction Second Edition【强化学习(第二版)】Richard S.Sutton著视频资源1.深度强化学习课程 https://www.bilibili.com/video/BV1rv41167yx ,链接这门课程对target network,actor-critic,基于策略的强化学习等理论推导讲得非常好,有醍醐灌顶的功效。中文课英文PPT,相见恨晚!!2.RLChina暑期课 https://space.原创 2021-09-07 14:54:21 · 1730 阅读 · 0 评论 -
离线强化学习与在线强化学习
首先将RL分为两大类:online RL 和 offline RLoffline RL:离线强化学习。学习过程中,不与环境进行交互,只从dataset中直接学习,而dataset是采用别的策略收集的数据,并且采集数据的策略并不是近似最优策略。online RL:在线强化学习。学习过程中,智能体需要和环境进行交互。并且在线强化学习可分为on-policy RL和off-policy RL。on-policy采用的是当前策略搜集的数据训练模型,每条数据仅使用一次。off-policy训练采用的数据不需要是原创 2021-09-02 16:24:50 · 21377 阅读 · 9 评论 -
Value Iteration Networks全文翻译——价值迭代网络
原文:Value Iteration Networks作者:Aviv Tamar, Yi Wu, Garrett Thomas, Sergey Levine, and Pieter Abbee出处:Neural Information Processing Systems 2016翻译 2021-08-06 14:35:19 · 614 阅读 · 0 评论 -
深度学习工具
文章目录前言PytorchNumpyMinicondaPycharmJupyterTensorboard结尾前言电脑正在炼丹,闲来无事整理一下最近做强化学习用到的工具。常用的库有:Pytorch、Numpy。工具有:miniconda、Pycharm、Jupyter、Tensorboard。Pytorch相比于Tensorflow的静态图,Pytorch的动态图真的太香了。近几年,主流深度学习、强化学习的框架大部分都是基于Pytorch库进行实现的。并且组内学长、学姐也都在用Pytorch,所以我也原创 2021-04-06 16:35:28 · 516 阅读 · 0 评论 -
POMDP中的贝叶斯滤波(Bayesian filter)
文章目录前言一、POMDP中贝叶斯滤波的使用二、贝叶斯滤波的公式推导1.基础知识 1.1 概率论基础 1.2 贝叶斯公式2.贝叶斯滤波算法 2.1 算法假设 2.2 算法推导 2.3 算法流程总结参考文献前言POMDP是Partially Observable Markov Decision Process的简称,表示局部可观测马尔可夫决策过程。MDP通常使用<S, A, T, R>表示,其中S表示状态、A表示动作、T(s’|s,a)表示转移模型,即在状态s下采取动作a到达状态s原创 2021-03-15 19:56:17 · 1598 阅读 · 2 评论 -
miniconda常用命令
文章目录前言一、更新Ubuntu二、Miniconda常用命令1.创建环境2.激活环境并安装相关包总结前言每次运行论文中对应代码的时候都要用conda搭建虚拟环境,今天就对于常用的命令做一个总结,以助于下次方便查找一、更新Ubuntu这一步还是很重要的,因为我自己的电脑装了双系统,ubuntu系统不常使用,偶尔来任务的时候才打开。 每次使用前更新一下ubuntu,可以避免不必要的报错与麻烦sudo apt updatesudo apt upgrade执行完成后,建议重启一下电脑二、M原创 2021-03-11 15:37:19 · 3843 阅读 · 1 评论 -
RL方面论文中的相关概念
ablation study: An ablation study typically refers to removing some “feature” of the model or algorithm, and seeing how that affects performance.(通过控制变量法,减少模型中改变的部分,以确定各个改变的部分对于最终结果的影响)...原创 2021-02-24 17:16:19 · 938 阅读 · 0 评论 -
定理、引理和推论
Definition(定义):对数学术语含义的精确而明确的描述。它通过给出所有的属性,并且只有那些必须是真实的属性来表征一个词的意思。Theorem(定理):定理用严格的数学推理证明的数学陈述。在一篇数学论文中,定理一词通常是留给最重要的结果的。Lemma(引理):一个次要的结果,其唯一目的是帮助证明一个定理。它是证明一个定理的踏脚石。偶尔引理也会有自己的生命(Zorn引理,Urysohn引理,Burnside引理,Sperner引理)。Corollary(推论):一个结果,其中(通常简短)证明严重.原创 2021-03-03 22:09:41 · 2445 阅读 · 2 评论 -
中科院自动化所第五届深度强化学习研讨会笔记
文章目录从数学与信息处理的视角看模仿学习一、Basis of Behaviour AI二、Mathematics and AIAI-Based Method VS. Control-BasedRL from Imperfect Supervision三、Research Prospects面向智能制造的认识计算与深度学习一、个人相关工作的介绍二、国内外现状及趋势分析Experience Replay in Deep Reinforcement Learning(深度强化学习中的经验回放机制)一、DRL1.1原创 2021-01-23 23:58:33 · 1151 阅读 · 0 评论 -
MistGPU使用指南
使用按时收费的GPU服务器,往往需要配置环境,连接项目等操作。本笔记将描述如何连接MistGPU服务器,并安装相应conda虚拟环境,以及Pycharm项目同步。一、连接MistGPU服务器采用官网教程,在Ubuntu系统下直接使用ssh mist@gpu193.mistgpu.xyz -p 20900 命令进行连接二、拷贝本机conda环境conda activate your_envconda env export > your_env.yaml我使用的命令为:conda ac原创 2021-01-02 16:03:03 · 8671 阅读 · 0 评论 -
Jupyter Notebook学习笔记(2020-12-12)
代码段最左边的颜色命令模式 蓝色编辑模式 绿色命令模式——> 编辑模式 :Enter编辑模式——> 命令模式 :Esc快捷键shift+enter:运行并进入下一个代码块ctrl+enter:运行并在当前代码块在命令行模式下dd:删除当前代码块b:下方添加代码块a:上方添加代码块m:将编程语言代码块变成Markdown代码块y:将Markdown代码块变成编程代码块Markdown下的规则[内容](超链接)采用latex语法插入公式三个原创 2020-12-13 00:04:53 · 162 阅读 · 0 评论 -
图卷积神经网络(GCN)学习笔记
参考材料图卷积网络GCN详细介绍(强烈推荐!!!)https://blog.youkuaiyun.com/yyl424525/article/details/100058264图卷积神经网络简单理解 https://www.zhihu.com/column/p/71200936图卷积网络理解(可参考,内容和1极为相似,但有答主的个人理解)https://www.zhihu.com/question/54504471/answer/332657604图卷积网络(GCN)新手村完全指南 https://zh原创 2020-10-28 20:29:25 · 629 阅读 · 0 评论 -
强化学习课程笔记(三)——不基于模型的预测与控制
第四章 不基于模型的预测其中本章将聚焦于策略评估,也就是预测问题;下一章将利用本讲的主要观念来进行控制进而找出最优策略以及最有价值函数。本章分为三个部分,将分别从理论上阐述基于完整采样的蒙特卡罗强化学习、基于不完整采样的时序差分强化学习以及介于两者之间的 λ 时序差分强化学习。这部分内容比较抽象,在讲解理论的同时会通过一些精彩的实例来加深对概念和算法的理解。4.1蒙特卡罗强化学习蒙特卡罗强化学习 (Monte-Carlo reinforcement learning, MC 学习):指在不清楚 MD原创 2020-09-01 11:13:55 · 1159 阅读 · 0 评论 -
强化学习课程笔记(二)——马尔科夫决策过程和动态规划寻找最优策略
参考材料1.强化学习入门课程(英文)https://www.bilibili.com/video/av372950482.课程对应知乎讲解https://zhuanlan.zhihu.com/reinforce3.强化学习(莫烦)https://www.bilibili.com/video/BV13W411Y75P4.《强化学习入门——从原理到实践》-叶强第二章 马尔科夫决策过程当环境状态是完全可观测时,个体可以通过构建马尔科夫决策过程来描述整 个强化学习问题。有时候环境状态并不是完全可观测的,原创 2020-08-26 13:27:47 · 3031 阅读 · 0 评论 -
强化学习入门笔记(一)——莫烦Python
参考材料1.强化学习入门课程(英文)https://www.bilibili.com/video/av372950482.课程对应知乎讲解https://zhuanlan.zhihu.com/reinforce3.强化学习(莫烦)https://www.bilibili.com/video/BV13W411Y75P4.《强化学习入门——从原理到实践》-叶强莫烦Python强化学习整理1.Q-LearningQlearning 是一个离线学习的算法, 因为里面的max action让Q表的更新可原创 2020-08-26 13:12:22 · 1930 阅读 · 0 评论