- 博客(11)
- 收藏
- 关注
原创 IEEE xplore免费下载论文
从IEEE xplore免费下载论文1.先从IEEE xplore上找到要下载的论文2.原始地址是https://ieeexplore.ieee.org/abstract/document/8737460在org的后面加上 .sci-hub.se3.跳转到下载的页面,即可保存下载。
2021-04-18 14:19:18
2020
原创 Learning Scheduling Algorithms for Data Processing Clusters(2)
Learning Scheduling Algorithms for Data Processing Clusters介绍我们介绍了decima,一种通用的调度服务器来服务未来阶段的数据处理,我们关注这些工作有两个原因:许多系统将将作业阶段和他们的依赖关系编码为有向无环图(DAGs)调度DAGs算法是很难的问题,器最优解是难以处理的,很难在好的启发式中捕获。Decima使用神经网络来对调度决策进行编码,通过大量的模拟实验来训练神经网络,调度一个工作负载,观察结果,逐渐的提升策略,如下图
2021-04-12 22:06:42
773
原创 Data Centers Job Scheduling with Deep Reinforcement Learning
Data Centers Job Scheduling with Deep Reinforcement LearningData Centers Job Scheduling with Deep Reinforcement Learning1.介绍2.相关工作3.方法和问题表述3.1作业调度中的A2C3.2训练算法4.实验4.1实验计划Data Centers Job Scheduling with Deep Reinforcement Learning摘要:A2C调度包含两个agent,一个actor
2021-04-10 17:01:10
472
原创 learning Scheduling Algorithms for Data Processing Clusters
learning Scheduling Algorithms for Data Processing Clusters1.introduction2.Motivation2.12.22.3 spark案例的解说3,spark中DAG调度问题4,概述和设计挑战5.设计5.1 可扩展的状态信息处理5.2,将调度决策编码为动作(编码调度决策作为动作)5,3训练1.introduction首先,集群作业必须扩展到数百个作业,数千个机器,,必须在每个作业的数百种配置中做出决定,这导致了更大的问题规模第二,传统的
2021-04-03 11:13:32
1616
原创 强化学习之PPO
PPO1. 概念PPO:Policy Gradient不好确定Learning rate(step size)的问题,如果因为step size过大,学出来的Policy会一直乱动,不会收敛,但如果step size太小,对于完成训练,会很长时间,因此PPO利用了New Policy和Old Policy的比例,限制了New Policy的更新幅度,让Policy Gradient对稍微大的step size不那么敏感。PPO是基于Actor Critic 的算法。2.原理从On-policy--
2021-01-11 18:43:36
3224
原创 强化学习之DDPG
DDPG1.概念DDPG是基于Actor-Critic 的Actor-Critic + DQN = Deep Deterministic Pollicy Gradient1.动作估计网络用来输出实时的动作供actor在现实中实行,动作现实网络是用来更新价值网络系统的2.状态现实网络和状态估计网络都在输出状态的价值3.状态现实网络会拿着从动作现实网络的动作+状态的观测值加以分析,状态估计网络会拿着从actor施加过的动作当做输入一句话概括DDPG,使用的是Actor Critic结构,输出的不
2021-01-11 17:32:12
902
原创 生成对抗网络GAN(一)摘要
生成对抗网络GAN1.前序1.1.判别模型和生成模型1.2.其他GAN2.GAN的原理与组成2.1GAN原理2.2.GAN本质1.前序1.1.判别模型和生成模型1,判别模型:数学表示是y=f(x),条件概率分布为p(y|x),输入一张训练集图片时,判别模型输出分类标签y,模型学习的是输入图片x与输出的类别标签的映射关系,即在x的条件下,输出y的概率。2,生成模型:数学表示是概率分布p(x),没有约束条件的生成模型是无监督模型,将给定的简单先验分布,映射为训练集图片的像素概率分布p(x),即输出一张服
2020-12-04 23:17:36
562
原创 强化学习之Actor-Critic
强化学习Actor Critic1.概念2.优缺点3.原理4.代码DDPG1.概念2.优缺点A3CPPOActor Critic1.概念Actor是一个神经网络Critic也是一个神经网络,他们是不同的神经网络,Actor用于预测行为的概率,Critic是预测在这个状态下的价值。结合了Policy Gradient(Actor)和Function Approximation(Critic)的方法,Actor基于概率选行为,Critic(可以用Q-learning或者Value-based)估计每一
2020-12-04 23:16:20
14707
1
原创 强化学习之Policy Gradient
策略梯度1.什么是策略梯度2.Policy Gradient算法更新3.Policy Gradient思维决策1.什么是策略梯度1.1.策略梯度是属于强化学习的一种算法,他是Q-learning和DQN的改进,强化学习是通过奖惩来不断学习的机制,有学习奖惩的值,有根据价值选行为的Q-learning和DQN,也有不通过奖励值直接输出动作的概率Policy Gradients1.2.Policy Gradient好处:2.Policy Gradient算法更新3.Policy Gradient思维
2020-11-13 21:06:25
342
原创 强化学习之DQN
DQN一.算法详解1.1.经验池1.2.神经网络计算Q值1.3.目标函数(Q-target)二.马尔科夫决策2.1要求2.2 由5个元素构成2.3过程三.Bellman方程四.算法流程4.1公式五.代码详解一.算法详解DQN是Q-learning的改进,两者都是基于值迭代的算法。但是在Q-learning中,当状态和动作空间是离散且维数是不变时,可使用Q-table储存每个状态动作对应的Q值,而当状态和动作空间是高维连续的,需要使用Q-learning和神经网络相结合,这就成
2020-11-12 23:29:31
1221
2
原创 Resource Management with Deep Reinforcement Learning论文总结
Resource Management with Deep Reinforcement Learning算法说明:本次实验采用策略梯度强化学习算法,并附加同SJF,Packer,Tetris三种调度策略的对比。代码运行之初,可选则Sjf或者Packer进行调度,获得决策数据,运用监督学习进行神经网络的初始化。一.先进行监督学习1.监督学习流程图2.剖析监督学习流程图2.1数据收集,获取数据先用“SJF”或者“PACKER”的数据进行调度,获得决策轨迹,在这里,如果获得SJF,就进行get_s
2020-10-30 14:49:35
1387
3
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人