
深度学习
文章平均质量分 91
qq_42498154
这个作者很懒,什么都没留下…
展开
-
Learning Scheduling Algorithms for Data Processing Clusters(2)
Learning Scheduling Algorithms for Data Processing Clusters介绍我们介绍了decima,一种通用的调度服务器来服务未来阶段的数据处理,我们关注这些工作有两个原因:许多系统将将作业阶段和他们的依赖关系编码为有向无环图(DAGs)调度DAGs算法是很难的问题,器最优解是难以处理的,很难在好的启发式中捕获。Decima使用神经网络来对调度决策进行编码,通过大量的模拟实验来训练神经网络,调度一个工作负载,观察结果,逐渐的提升策略,如下图原创 2021-04-12 22:06:42 · 781 阅读 · 0 评论 -
Data Centers Job Scheduling with Deep Reinforcement Learning
Data Centers Job Scheduling with Deep Reinforcement LearningData Centers Job Scheduling with Deep Reinforcement Learning1.介绍2.相关工作3.方法和问题表述3.1作业调度中的A2C3.2训练算法4.实验4.1实验计划Data Centers Job Scheduling with Deep Reinforcement Learning摘要:A2C调度包含两个agent,一个actor原创 2021-04-10 17:01:10 · 480 阅读 · 0 评论 -
learning Scheduling Algorithms for Data Processing Clusters
learning Scheduling Algorithms for Data Processing Clusters1.introduction2.Motivation2.12.22.3 spark案例的解说3,spark中DAG调度问题4,概述和设计挑战5.设计5.1 可扩展的状态信息处理5.2,将调度决策编码为动作(编码调度决策作为动作)5,3训练1.introduction首先,集群作业必须扩展到数百个作业,数千个机器,,必须在每个作业的数百种配置中做出决定,这导致了更大的问题规模第二,传统的原创 2021-04-03 11:13:32 · 1626 阅读 · 0 评论 -
强化学习之PPO
PPO1. 概念PPO:Policy Gradient不好确定Learning rate(step size)的问题,如果因为step size过大,学出来的Policy会一直乱动,不会收敛,但如果step size太小,对于完成训练,会很长时间,因此PPO利用了New Policy和Old Policy的比例,限制了New Policy的更新幅度,让Policy Gradient对稍微大的step size不那么敏感。PPO是基于Actor Critic 的算法。2.原理从On-policy--原创 2021-01-11 18:43:36 · 3241 阅读 · 0 评论 -
强化学习之DDPG
DDPG1.概念DDPG是基于Actor-Critic 的Actor-Critic + DQN = Deep Deterministic Pollicy Gradient1.动作估计网络用来输出实时的动作供actor在现实中实行,动作现实网络是用来更新价值网络系统的2.状态现实网络和状态估计网络都在输出状态的价值3.状态现实网络会拿着从动作现实网络的动作+状态的观测值加以分析,状态估计网络会拿着从actor施加过的动作当做输入一句话概括DDPG,使用的是Actor Critic结构,输出的不原创 2021-01-11 17:32:12 · 915 阅读 · 0 评论