
强化学习与机器人控制
为运行帝国理工大学Marc教授的成果,8月中旬至10月中旬,从初学到小成matlab
茶花煮酒
显微手术机器辅助控制,眼科、神经外科术式三维建模,基于强化学习的机器人控制系统开发
展开
-
改了一个step函数
def get_env_feedback(S, A): # This is how agent will interact with the environment if A == 'right': S_ = S + 1 else: # move left S_ = S - 1 if S_ == -1: ...原创 2019-12-05 17:35:09 · 330 阅读 · 0 评论 -
ML做控制的调研笔记
三、机器学习与控制科学(笔者尚未理清楚,请路过大佬留言指点)从实现科学体系来看,机器学习涉及概率学(统计推断),运筹学(优化问题)等。是解决人工智能问题的重要方法。提出问题:机器学习可以比传统控制理论更好的解决控制问题吗?思考:PID控制在理想控制问题中是完美的解决方案,在工业控制中具有地位。机器学习在机器人控制领域颇有建树,如四足机器人,波士顿动力机器人。在复杂建模问题中,由于传...原创 2019-11-27 15:43:44 · 171 阅读 · 0 评论 -
强化学习基础第一个环境(Maze)
本篇文章主要介绍在gym环境下env环境编写(未待完续,空闲更新)经典的迷宫宝藏例子import numpy as npimport timeimport tkinter as tk # 窗口界面库UNIT = 40 # 像素MAZE_H = 5 # 高宽格子数MAZE_W = 3class Maze(tk.Tk): # 新类继承父类tkinter.Tk d...原创 2019-11-27 15:44:39 · 5508 阅读 · 1 评论 -
强化学习基础第一个程序(建议在DQN跑CartPole之前)
本篇文章从经典CartPole控制出发,由浅入深,介绍强化学习入门程序。(未待完续,空闲更新)0、第0个程序是安装gym和物理引擎MuJoco后的测试程序(CartPole随机动作 10行)1、第一个程序CartPole学习“最小系统”(CartPole简单策略 20行)2、第二个程序DQN学习CartPole (RL_brain.py 未提供)以上,吃透CartPole,举一...原创 2019-11-20 19:49:02 · 1516 阅读 · 0 评论 -
C++多线程编程
注:不要生磕博客,找水平最适合你的,记得目的是解决问题(付出尽量少的时间),而不是抠细节的全面学习。一、对线程的理解基本概念:1. 进程:可以理解成一个运行中的应用程序,是系统进行资源分配和调度的基本单位,是操作系统结构的基础,主要管理资源。2. 线程:是进程的基本执行单元,一个进程对应多个线程。3. 主线程:处理UI,所有更新UI的操作都必须在主线程上执行。不要把耗时操...原创 2020-01-10 17:27:01 · 1056 阅读 · 0 评论 -
基于策略搜索的强化学习方法
梯度:上升最快的方向。梯度下降法:沿着梯度反方向,找到全局最小值(损失函数)。神经网络的有效性:两层神经网络可以无限逼近任意二维连续函数。其实从输入层到隐藏层的矩阵计算,就是对输入数据进行了空间变换,使其可以被线性可分,然后输出层画出了一个分界线。而训练的过程,就是确定那个空间变换矩阵的过程。因此,多层神经网络的本质就是对复杂函数的拟合。我们可以在后面的试验中来学习如何拟合上述的复杂函数的...原创 2020-01-03 18:59:14 · 1175 阅读 · 0 评论 -
深度强化学习进阶1:模式识别与数据降维
楔子:读万卷书与行万里路。不读书弱于方法论,行路如同看热闹。不行路弱于感性认识, 读书一知半解很难深入。一、模式识别模式识别 = 特征(本质)分类模式识别:对待识别对象的原始信息,根据实际需求提取特征向量,并设计分类器。 特征是描述模式的最佳方式,我们通常认为特征的各个维度能够从不同的角度描述模式,在理想情况下,维度之间是互补完备的。特征提取的主要目的是降维。...原创 2020-01-02 16:10:31 · 2965 阅读 · 0 评论 -
深度强化学习篇2:从Playing Atari with Deep Reinforcement Learning 看神经网络的输入,学习的状态空间
Introduction:学习直接从高维的感观输入(视觉,语音)去直接控制智能体是强化学习一个长期的挑战。一些成功的RL应用都是依赖于hand-crafted的特征。最近深度学习的进步使提取高水平的特征成为了可能。参考传送门:https://blog.youkuaiyun.com/qq_34718684/article/details/89386302 Playing Atari with Deep R...原创 2019-12-25 17:19:32 · 1065 阅读 · 0 评论 -
深度强化学习篇1:神经网络回归实例---复杂函数拟合
擅长一件事,喜欢一件事,工作一件事。如果三件事重合,就不要踌躇了。一、TensorFlow2TensorFlow的张量与数据流图:一维张量如向量,二维张量如矩阵,以此类推。TensorFlow的数据流图如下。 二、神经网络基础编程实例1、Ten...原创 2019-12-20 10:15:56 · 7341 阅读 · 0 评论 -
神经网络与强化学习
一、DQN的神经网络是怎样一种结构?有几层?什么作用?如何实现数据的记忆?如何做一些改进(一)问题描述:qu1. 问题复杂度提高导致无法使用Q表记录全部状态: 1. 对状态的维度进行压缩,解决方案之一Value Function Approximation(值函数近似), 用w来表示函数f的参数,则有 2. 高维s和低维a的函数输入问题,低...原创 2019-12-17 15:45:51 · 8890 阅读 · 0 评论 -
导航、路径规划、跟踪、SLAM
移动机器人主要研究问题:建图、定位、路径规划。机械臂主要研究问题:加运动规划。机器人主要研究问题:传感、规划、跟踪。1、导航:获取环境信息,并计算路径规划。2、路径规划:运筹学最优化问题,可以用线性规划、动态规划解。传送门:https://blog.youkuaiyun.com/huapiaoxiang21/article/details/74931742导航和路径规划3、跟踪:已有...原创 2019-12-12 10:21:14 · 2269 阅读 · 3 评论 -
变阻抗控制理论基础、公式推导
注:..代表省略了一些符号1、机器人建模:在人机交互环境中,机器人欧拉-拉普拉斯动态可以表示为:q关节角向量,M惯性矩阵,C向心力和科氏力扭矩,G重力向量,D粘性摩擦力,控制输入,环境力/交互力(contact)用弹簧-阻尼-质量系统来简化柔性机械臂,想象人与机械臂柔性交互。*机械臂动力学建模所使用的动力学方程一般有两种形式:欧拉-兰格朗日方程(E-L方程): ...原创 2019-12-10 14:53:26 · 3748 阅读 · 0 评论 -
深度强化学习篇3:神经网络分类
分类问题的一种实现方式是线性回归,对所有预测结果以某个值为分界。然而,这种方法不够好,因为分类问题不能用线性方程表示。但分类问题依然是回归问题,预测的结果限定在少数离散的结果集中。一、逻辑回归与二分类1、逻辑回归做二分类线性回归Y=aX+b,y的取值范围是[-∞, +∞],有这么多取值,怎么进行分类呢?选择把Y的结果带入一个非线性变换的Sigmoid函数中,即可...原创 2020-01-19 19:51:52 · 1799 阅读 · 0 评论 -
reward、loss、cost
1、损失函数、代价函数、目标函数损失函数(Loss Function):单个样本的误差/ 所有样本的平均误差。(存在混用)代价函数、成本函数(Cost Function):训练集所有样本的平均误差,损失函数均值。可以加入正则化项。目标函数(Object Function):问题需要优化的函数,比较广泛。我们研究问题一般是先确定一个“目标函数”,然后去优化它。 比如强化...转载 2019-12-19 20:10:06 · 3885 阅读 · 0 评论 -
2019/5/12 由机器学习引入强化学习
一、机器学习监督学习经典算法:支持向量机、线性判别、决策树、朴素贝叶斯,随机森林,深度学习中的CNN模型,LSTM模型;无监督学习经典算法:k-聚类、主成分分析PCA等; 无监督学习常常被用于数据挖掘,用于在大量无标签数据中发现些什么。机器会主动学习数据的特征,并将它们分为若干类别,相当于形成「未知的标签」。半监督学习经典算法:SVMs半监督支持向量机,S3VM、S4V...原创 2019-05-12 21:28:30 · 556 阅读 · 0 评论 -
2019/5/14 基于无模型的强化学习方法
(一)无模型的强化学习方法解决哪类问题模型状态转化概率矩阵P始终是未知 ...原创 2019-05-14 21:33:37 · 2056 阅读 · 0 评论 -
2019/5/13 基于模型的强化学习方法
注:论文写作四项工作工作一:查阅100篇,挑选30篇,核心参考3-5篇,“看懂”一篇工作二:提出难点问题,提出新概念。例:多光谱、注意力机制工作三:修改算法,网络结构、损失函数、步数工作四:写写写,改改改。图片精修,丰富实验,首句中心。基于模型的的强化学习是比无模型难很多的问题。一、状态转移概率 1、马氏决策过程可以利用五元组(S,A,P,r,y)来...原创 2019-05-13 22:41:42 · 956 阅读 · 0 评论 -
2019/5/11 gym与mujuco安装
一、gym,mujoco安装参考资料:1、简书:【强化学习】gym+baselines+mujoco+mujoco_py安装配置 https://www.jianshu.com/p/869254fd3e212、博客: Mujoco以及Mujoco_py的安装二、linux 查看.bashrc文件$gedit ~/.bashrc三、在gym虚拟环境下运行demo1...原创 2019-05-11 21:30:53 · 374 阅读 · 0 评论 -
2019/5/10 虚拟机linux系统安装Anaconda
一、双系统win10+deepin材料:VMware,deepin系统镜像二、Anaconda3安装Anaconda可以管理包,就是能够安装、更新、移除工具包,比如Numpy、Scipy、pandas、Scikit-learn等常用的包;Anaconda可以管理环境,能够创建、访问、共享、移除环境,隔离不同项目所需要的不同版本的工具包,环境。Anaconda使用详解:http...原创 2019-05-11 10:24:47 · 642 阅读 · 0 评论 -
2019/5/9
1、Reinforcement learning neural network (RLNN) based adaptive control of fine hand motion rehabilitation robot自适应控制康复机器人期望轨迹力辅助算法:actor-critic based RLNN详见:【强化学习】Actor-Critic算法详解2、强化学习监督学习解决智...原创 2019-05-09 21:42:05 · 196 阅读 · 0 评论 -
2019/5/8
一、Towards Transferring Skills to Flexible Surgical Robots with Programming by Demonstration and Reinforcement Learning ...原创 2019-05-08 22:16:18 · 174 阅读 · 0 评论 -
2019/5/7 强化学习+机器人 文献检索
优快云:构建你的“知识体系”一、SCI检索近五年reinforcemet learning+ robot 最高被引五篇1、Decoupled Visual Servoing With Fuzzy Q-Learningimage-based visual servoing (IBVS) methods、Q-learning Fuzzy、control2、Adaptive ...原创 2019-05-07 21:31:58 · 451 阅读 · 0 评论 -
论文摘要(一):Reinforcement Learning on Variable Impedance Controller for High-Precision Robotic Assembly
原文:[1]Jianlan Luo, Eugen Solowjow, Chengtao Wen, “Reinforcement Learning on Variable Impedance Controller for High-Precision Robotic Assembly,”2019 International Conference on Robotics and Automation (ICRA),3080-3087.参考链接:主编推荐 | 基于模型的强化学习—LQR与iLQR.原创 2020-10-10 16:58:47 · 403 阅读 · 0 评论 -
一句话交待强化学习在做什么
正文前的两个问题:一、强化学习与监督非监督学习的区别:1、从策略更新依据的角度说(标签还是奖励):监督学习,人知道什么是对的,并标签数据。 非监督学习,人知道什么是对的,没有完全标签数据。强化学习,人不知道什么是对的,不知道要怎样做,但可以评价智能体与环境交互的好不好,设置奖励。2、状态空间到策略空间的难度(神经网络的作用):深度学习用大量的卷积神经网络处理理解feat...原创 2019-11-07 11:30:52 · 579 阅读 · 0 评论