- 博客(15)
- 收藏
- 关注
原创 【深度学习-pytorch】线性回归从0开始实现
线性模型可以看作单层神经网络,从零开始实现整个方法,包括数据流水线、模型、损失函数和小批量随机梯度下降优化器
2022-02-07 17:04:15
1341
原创 【深度学习-pytorch】自动求导实现
import torchx=torch.arange(4.0)print(x)x.requires_grad_(True)#把梯度放在哪个地方print(x.grad)y=2*torch.dot(x,x)#内积×2print(y)# 通过调用反向传播函数来自动计算y关于x每个分量的梯度y.backward()#求导x.gradprint(x.grad==4*x)#在默认情况下,pytorch会累计梯度,我们需要清楚之前的值x.grad.zero_()#_表示重
2022-01-30 16:14:51
2946
2
原创 【深度学习-pytorch】数据操作与数据处理实现
一、数据操作import torchx=torch.arange(12)print(x)print(x.shape)print(x.numel())#元素的种数x=x.reshape(3,4)print(x)#全0或者全1print(torch.zeros(2,3,4))print(torch.ones(2,3,4))print(torch.tensor([[2,1,4,3],[1,2,3,4],[4,3,2,1]]))print(torch.tensor([[2,1,4,3
2022-01-27 17:31:49
1694
原创 【强化学习】DQN(Deep Q network)原理及实现
一、原理DQN为融合了神经网络和Q-learning的方法。面对复杂问题,state数量巨多,传统的表格学习已经不能满足此种情况。神经网络的的工作模式为通过对输入进行处理学习得到结果的过程。神经网络应用到强化学习中时,输入为状态和动作,价值作为其输出,或者输入为状态,输出为最大值的动作,省略了需要用表格记录动作及状态的过程,可更好的应用于复杂状态下的处理。DQN中还有两种机理用于提升。一种为Experience replay(经验回放),随机对之前的经历进行学习,使其更新更有效率。Fixed Q
2022-01-27 14:07:41
3066
1
原创 论文泛读:Approximate dynamic programming for stochastic resource allocation problems-随机资源分配问题的近似动态规划
基于马尔可夫决策过程原理,提出了一种随机资源分配模型
2022-01-25 23:35:58
481
1
原创 【强化学习】SARSA(lambda)与SARSA区别及python代码实现
SARSA(lambda)与SARSA区别及对SARSA(lambda)进行python代码实现
2022-01-22 17:52:06
1306
原创 【强化学习】Q-learning与SARSAS算法比较与SARSA算法实现
Q-learning与SARSA区别Q-learning为offpolicy(看着别人玩,自己学着别人玩),target使用greedy,action用ε-greedy。行动策略和评估策略不是一个策略。SARSA是on-policy的更新方式(从自身的经验学),它的行动策略和评估策略都是ε-greedy策略。与Q-learning相比更保守。二、SARSA算法代码实现-testfrom maze_env import Mazefrom RL_brain import SarsaTabl..
2022-01-21 10:55:11
748
原创 【强化学习】python实现Q-learning算法更新
一、Q-learning算法更新提升的循环from maze_env import Maze#导入环境from RL_brain import QLearningTable#导入 QLearning表#更新的功能def update(): for episode in range(100):#100个回合 observation = env.reset()#环境给出的观测值 while True: env.render(...
2022-01-20 11:06:06
1843
原创 【强化学习】python回顾与python实现Q-learning
一、python回顾类与实例 类有自己的属性和方法。(例:class Person:) 想要调用方法需要创建实例:实例要创建变量,指向类的名字(p1=Person()),调用方法的话在变量的后边句号方法的名字+括号。(p1.greet()) 如果想把属性进行隐藏,可以把名字前边加两个下划线 __init__帮助class初始化 继承和多态(例:class Animal: class Dog:) ...
2022-01-19 10:15:00
519
原创 论文泛读: 基于改进退化隐马尔可夫模型的设备健康诊断与寿命预测研究
一、期刊论文概述1.论文题目: 基于改进退化隐马尔可夫模型的设备健康诊断与寿命预测研究2.作者: 刘文溢, 刘勤明, 叶春明, 李冠林3.文献来源: 计算机应用研究4.发表时间: 2021 年3 月 5.创新点: 提出了一种以似幂关系加速退化为核心的DGHMM,较常规指数式加速退化而言,能更加准确地描述设备性能随役龄增加而逐渐加速下降的过程。二、基础知识:1.名词简写: 改进退化隐马尔可夫模型(DGHMM); 隐马尔可夫模型(HMM); 隐半马尔可夫模型( HSMM); EM(E
2022-01-18 12:10:38
763
原创 论文泛读:基于马尔可夫模型的多agent 自适应在线验证
一、期刊论文概述1.论文题目:基于马尔可夫模型的多agent 自适应在线验证2.作者:叶幸瑜,刘玮,王宁,甘陈峰3.文献来源:计算机应用研究4.发表时间:2021 年5 月5.创新点:将在线定量验证技术(RQV)扩展至多agent系统中,提出了基于马尔可夫模型的多agent 自适应在线验证方法,并验证了该方法的可行性二、基础知识:马尔可夫模型:包含我们悉知的马尔可夫链、马尔可夫决策过程、隐马尔可夫链(HMM)等随机过程/随机模型。一个随机过程可以表示为函数X: T × Ω→S,其
2022-01-17 12:12:43
452
原创 文献综述怎么写
一、文献综述概述1文献综述理解综:综合起来; 述:评述。总结起来为综合与评述2文献综述的作用(1)帮助我们形成理论框架防止盲目的重复研究;弄清前人观点;帮助构思;形成自己的研究思路。(2)科研综合能力提升提高文献查阅的能力3过程①查找文献②阅读文献③单篇评论④综合评论理解想法评估想法找出所需要的连接起来进行取舍4文献类型以学术期刊为主,反应领域最新的研究前沿和正在探索的问题二、文献综述基本写作要求1.研究生论文:5页左右数量:硕士60以评述为主,不可罗列文献
2022-01-15 15:47:36
1307
3
原创 论文泛读:基于混合deep-Q网络的运输资源不足柔性作业车间实时数据驱动动态调度
1.论文题目:Real-time data-driven dynamic scheduling for flexible job shop withinsufficient transportation resources using hybrid deep Q network2.作者:Yuxin Li, Wenbin Gu*, Minghai Yuan, Yaming Tang3.文献来源:Robotics and Computer-Integrated Manufacturing4.名词.
2022-01-14 22:42:45
3116
2
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人