
笔记
文章平均质量分 77
IEEEagent RL
电气建模,985博士,代码相关欢迎私信和留言。
展开
-
《控制论》读书笔记2019.9迟发
控制论、信息论、系统论读书笔记文章目录控制论、信息论、系统论读书笔记@[toc]一、控制论二、信息论三、系统论一、控制论可能性空间定义:事物发展的可能性与不确定性是由其内部矛盾决定的,人们根据自己的目的,改变条件,使得事物沿着可能性空间内某种方向发展,则形成了控制。条件:被控制的对象必须有多种可能性发展的过程,并且可以人为地在这些可能性发展过程中进行选择。共轭控制数学上将L−1ALL^{-1}ALL−1AL称作A过程的共轭过程,通过LLL变换和L−1L^{-1}L−1将原来不原创 2021-08-10 09:14:43 · 659 阅读 · 0 评论 -
RL: 几个扩展性很好的网络
目前主流网络是Q-network, AC框架Q-Net: DQN, DuelingQN, DoubleQN, D3QNAC: DDPG, TD3, PPO, SAC等基础网络如下,可扩展性很好:详情参考ElegantRLimport torchimport torch.nn as nnimport numpy as np#Q-Netclass Qnet(nn.Module): def __init__(self, mid_dim, state_dim, action_dim):原创 2021-08-08 16:05:47 · 280 阅读 · 0 评论 -
RL: 一个可扩展性很好的环境
自定义强化学习环境可以在以下基础上建立,可扩展性很好定义环境:(打印环境信息,数据类型float32)获取环境信息,共7个量(str, int, int, int, int, bool, float)- > (env_name, state_dim, action_dim, action_max, max_step, if_discrete, target_return)每个episode后的环境重置,状态归一化import osimport numpy as npimport gym原创 2021-08-07 20:32:48 · 562 阅读 · 0 评论 -
强化学习:策略梯度Policy-gradient
强化学习:策略梯度Policy-gradient这是一篇笔记文文章目录强化学习:策略梯度Policy-gradient1. value-based and policy-based2. 策略梯度Policy-gradient1. value-based and policy-basedvalue-based基于价值的RL,倾向于选择价值最大的状态或者动作;通过迭代计算最优值函数Q,并根据最优值函数改进策略。policy-base基于策略的RL,常分为随机策略与确定性策略;无需定义价值函数,原创 2021-05-30 17:08:21 · 350 阅读 · 0 评论 -
强化学习中on-policy和off-policy的区别
on-policy(同策略)代表既定策略,off-policy(异策略)代表新策略在Sarsa中,更新Q函数时用的动作a由贪婪策略得出,那么下一回合也用的是这个动作a。sarsa中的两个a一定相同就是(同策略)on-policy。Qlearning中,动作A1由Qmax得到的,而下一回合的A2用贪婪策略得到(下一回合的Q是在Qmax基础上探索,如图1所示),这时的A1和A2就有可能不一样,就是(异策略)off-policy。...原创 2021-05-29 22:08:23 · 1822 阅读 · 0 评论 -
Deep Q-learning from Demonstrations DQFD笔记
这是一篇关于Deep Q-learning from Demonstrations DQFD的笔记文原文链接:DQFD一、主要问题:how to 加速agent的学习过程,避免前期的cold start一方面,搞控制的都知道,工业场景不可能让你直接验证算法性能,或者RL与工业环境直接的”试错交互“学习,一般都需要在软件上建立数值模型simulator作为模拟环境去和RL算法interat但是有的工业过程很难建立这类模型去解析求解,亦或者所建立的大多模型仅仅与现实环境近似而已(忽略了许多非线性变.原创 2021-05-27 22:28:40 · 1477 阅读 · 0 评论 -
A Theoretical Analysis of DQN
这是一篇笔记文。原文链接:Fan, Jianqing, et al. “A theoretical analysis of deep Q-learning.” Learning for Dynamics and Control. PMLR, 2020.这篇文章对于一个slight simplification DQN做了分析(Under mild assumptions)this paper 主要重点在于DQN的两个点:分别是experience replay and the target net原创 2021-05-26 18:54:32 · 251 阅读 · 0 评论 -
RL强化学习笔记:OpenAI gym建立自己的探索环境
本文为个人学习笔记,方便个人查阅观看原文链接利用OPenAI gym建立自己的强化学习探索环境:首先,先定义一个简单的RL任务:如图所示:初始状态下的环境,机器人在左上角出发,去寻找右下角的电池,静态障碍:分别在10、19位置,动态障碍:有飞机和轮船,箭头表示它们可以移动到的位置,会随时间改变而改变。这里假设:它们的移动速度和机器人一样。飞机会沿着当前列上下来回移动,轮船则只在当前位置到左边两格的范围来回移动。移动范围:如箭头所示。假设每个训练episode中,机器人在每一个step都有四.原创 2021-05-24 19:50:48 · 876 阅读 · 2 评论 -
笔记:机器学习的知识图谱(全)
原创 2021-05-17 17:55:43 · 913 阅读 · 0 评论 -
python机器学习之SVM分类预测电芯状态
最近给公司做电芯状态分类,边搞边学了下数据处理和svm分类模型训练与调用华丽的分割线------------------------------------------------------------引入几个库:import pandas as pdfrom sklearn.model_selection import train_test_split#分割训练集和测试集前自动打散数据from sklearn.preprocessing import Normalizer#归一化库函数fro原创 2020-07-13 21:49:49 · 1426 阅读 · 0 评论 -
C#编写单片机上位机软件-串口通讯(BMS汽车动力电池管理系统)
上位机软件做了有一段时间,本人呕心沥血的作品。之前用python+pyQT5做,主线程特别特别容易闪退,数据重叠等问题,走了很多弯路;后来用VS的C#做,只能说上手很快,调试效果也不错,而且关键是非常非常简单易读,只希望大家不要像我一样,走这么多弯路 - -想要源码的小伙伴们,欢迎关注点赞三连+留言邮箱哦~华丽的分割线--------------------------------------------------------------------------------------------原创 2020-06-09 12:16:52 · 7326 阅读 · 39 评论 -
深度强化学习-深度确定性策略梯度(DDPG)笔记
一、简介DDPG在DQN的基础上即经验回放和双网络的方法来改进Actor-Critic难收敛的问题,这个算法就是是深度确定性策略梯度(Deep Deterministic Policy Gradient,以下简称DDPG)DQN是一种基于值的学习方式,要求给定离散动作集,但考虑到一些控制系统一般为多组的连续动作,基于值的学习方式容易陷入局部最优且易导致“维数灾难”,而DDPG基于策略本身更新Q值,可以处理连续动作空间。因此基于DDPG做一下控制算法研究。随机策略,在相同的策略,在同一个状态处,采用的动原创 2021-03-25 19:19:06 · 3614 阅读 · 1 评论 -
RL强化学习笔记(三):函数近似
RL强化学习笔记(三):函数近似文章目录RL强化学习笔记(三):函数近似1. 函数近似方法1.1 随机梯度下降SGD1.2 半梯度下降1.3 带资格迹的半梯度下降2. 线性近似2.1 线性最小二乘策略评估2.1.1 线性最小二乘回合更新LSMC2.1.2 线性最小二乘时序差分更新LSTD2.1.3 线性最小二乘最优策略求解3. 函数近似的收敛性4. 深度强化学习-DQN4.1 经验回放4.2 目标网络4.3 双重深度Q网络DDQN1. 函数近似方法对于Model_base的数值迭代算法、Model_f原创 2021-02-26 22:58:25 · 577 阅读 · 2 评论 -
Model_free RL强化学习笔记(二)
Model_free强化学习:附上实验室大佬的github学习笔记:点击进入《虎师兄带你入门强化学习》文章目录Model_free强化学习:1. 蒙特卡罗法1.1 ϵ−贪心策略1.2 求解控制问题下,在线蒙特卡罗法伪代码1.3 柔性策略的每次访问同侧回合更新算法伪代码1.4 不足2. 同策时序差分更新2.1 时序差分价值函数迭代式2.2 时序差分与蒙特卡罗方法对比2.3 n步时序差分2.4 步长选择2.5 伪代码3. SARSA算法3.1 算法流程3.2 期望SARSA算法4. 异策时序差分更新4.原创 2021-02-22 21:04:53 · 535 阅读 · 2 评论 -
转载:强化学习中Bellman最优性方程背后的数学原理?
一. Bellman最优贝尔曼方程在强化学习(RL)中无处不在,它是由美国应用数学家理查德·贝尔曼(Richard Bellman)提出,用于求解马尔可夫决策过程。贝尔曼最优性方程贝尔曼最优性方程是一个递归方程,对于Model_based环境可由动态规划(dynamic programming,DP)算法求解,可以通过求解该方程可以找到最优值函数和最优策略。对于任何有限的MDP,都存在一个最佳策略π*,满足其他所有可能的策略π都不会比这个策略更好。如果对于状态空间中的每个状态,使用π1派生..转载 2021-02-17 10:21:09 · 3554 阅读 · 0 评论 -
《统计学习方法》读书笔记
《统计学习方法》读书笔记文章目录《统计学习方法》读书笔记1. 基于梯度的优化方法2. KKT条件:3. 线性最小二乘法(Moore-Penrose 伪逆求解)4. 机器学习任务总结5. 精确率、准确率、查准率(召回率)、ROC曲线、AUC值6. 防止过拟合的5种方法7. 熵、相对熵(KL散度)、交叉熵8. 最大似然估计9. 贝叶斯统计1. 基于梯度的优化方法(1)最速梯度下降(局部非全局),计算方向导数:minu,uTu=1uT∇xf(x)=minu,uTu=1∣∣u∣∣2∣∣∇xf(x)∣∣2co原创 2021-01-24 22:05:24 · 443 阅读 · 0 评论 -
机器视觉:目标检测之yolov3代码复现(二)
Yolov3关于yolov3网络的详细结构、前向推导、反向传播等细节可以参考我的上一篇文章:https://blog.youkuaiyun.com/weixin_45776027/article/details/112854974一步一步地教你复现代码(Kears框架)首先看结构图:yolov3包含了三那个主要模块:1)集卷积、批归一化、Leakyrelu激活层为一体的DBL模块2)残差网络结构的resunit模块3)由填充+DBL+残差组成的resn_body模块---------------.原创 2021-01-20 20:58:04 · 637 阅读 · 0 评论 -
深度学习之模型量化学习笔记
为什么要量化模型?模型部署时,往往考虑实际问题,算力、内存、带宽、速度、FPS、功耗、时延等等。特别是在移动端和嵌入式设备等资源受限的边缘侧应用场景中更加需要我们进行优化。什么是模型量化?模型量化: 即以较低的推理精度损失将连续取值(或者大量可能的离散取值)的浮点型模型权重或流经模型的张量数据定点近似(通常为int8)为有限多个(或较少的)离散值的过程,它是以更少位数的数据类型用于近似表示32位有限范围浮点型数据的过程模型的输入输出依然是浮点型,从而达到减少模型尺寸大小、减少模型内存消耗及加快模原创 2021-01-20 14:17:06 · 1557 阅读 · 0 评论 -
Resnet残差网络
为什么使用残差网络?深度学习中,随着网络层数的增加,容易导致:计算资源的过多消耗模型容易过拟合不恰当的激活函数导致梯度消失/梯度爆炸通过引入残差网络直接映射的加入,保证了L+1层网络,一定比L层网络包含更多的图像信息。残差块表示为:4. 残差:表示预测值与观测者之间的差距5. 误差:表示观测值与真实值之间的差距6. 预测值:表模型训练以后得到的输出值7. 观测值:表模型的输入,如模型测试时通过图像传感器输入的图像信息8. 真实值:人的肉眼所见的图像信息,无任何误差残差网络的原创 2021-01-20 13:02:44 · 323 阅读 · 0 评论 -
机器视觉:目标检测之yolov3学习笔记(一)
yolov3学习笔记文章目录yolov3学习笔记1. Darknet-53网络2. YOLOV3结构3. 前向过程4. 反向过程(训练策略)5. 损失函数6. 网络模型结构1. Darknet-53网络Yolov3采用的darknet-53网络模型,此结构主要由75个卷积层构成,卷积层对于分析物体特征最为有效。由于没有使用全连接层,该网络可以通过strides实现对应任意大小的输入图像。结构如下:假设输入图像shape(416,416,3)backbone部分由Yolov2时期的Darknet-原创 2021-01-19 23:38:14 · 1565 阅读 · 0 评论 -
手把手教你将AI模型做成一个手机APP并成功运行
系统环境:linux(我是用的Ubuntu)工具:Paddlelite、Android studio、Android studio tools、相关SDK、NDK、java开发环境jdk硬件:Android手机一部教程:下载并配置Android studio所需环境1.SDK环境:File>> setting >> Android sdk 和 Gradle.gradle一定放在当前目录下2. 代理环境与SDK配置172.0.0.1:80(本机ip)file>原创 2020-12-09 22:09:28 · 4289 阅读 · 0 评论 -
基于rk3399pro的人工智能模型落地与服务器部署
目前在校学生,厌倦了研究中的仿真模型优化,想玩玩实际的项目目的:脱离MATLAB与电脑Python仿真环境,完成算法模型落地应用大致流程:数据获取–>模型搭建–>CPU训练模型–>模型转换–>嵌入式部署–>完成落地硬件需求:瑞芯微嵌入式开发板rk3399pro(搭载双核Cortex-A72及四核Cortex-A53组合架构处理器,四核GPU一块,以及最重要的NPU神经计算单元:内置算力3.0T)键盘、鼠标、电源USB摄像头一块有条件可以搭载RK1808算力棒原创 2020-12-05 10:56:10 · 2004 阅读 · 2 评论