
分布式图神经网络系统
辽宁大学
毕业于朝阳科技大学
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
分布式系统概念
手机也是一个分布式系统,分布式是由于地理原因或者分析的数据过大。分布式需要搞并行化。并行的意思是多个机器或者多个核心能够同时运行。 分布式还要注意可靠性。可靠性是数据需要放到不同的地方。不然会因为一个结点或者机器宕机造成数据丢失。 可用性:数据需要复制到不同的机器上,可以迅速的处理异常。减少延迟 分布式可以提高吞吐量和计算能力。但是分布式中也存在很多问题。例如协调问题,这个就是指一致性问题。 处理一直性问题,可以使用同步或者异步(这个我没太搞懂)。 ...原创 2020-08-07 16:49:03 · 449 阅读 · 0 评论 -
TensorFlow: A System for Large-Scale Machine Learning翻译
TensorFlow: A System for Large-ScaleMachine Learning 1.Abstract TensorFlow是在大规模和异构环境中运行的机器学习系统。 TensorFlow使用数据流图来表示计算,共享状态以及使该状态发生变异的操作。 它在群集中的许多计算机之间以及一台计算机中的多个计算设备之间映射数据流图的节点,这些计算设备包括多核CPU,通用GPU和称为Tensor处理单元(TPU)的定制设计ASIC。 这种体系结构为应用程序开发人员提供了灵活性:而在...翻译 2020-06-01 09:43:21 · 598 阅读 · 0 评论 -
分布式深度学习three
对tensorflow的dataflow进行了了解,节点:代表各类操作(operation),具体包括数学运算、数据填充、结果输出和变量读写等。有向边:描述节点间的输入、输出关系,而张量(Tensor)则在边上流动。Tensoflow中的数据流图是有向图,不能连成为环。 Tensorflow实现的dataflow的过程是: Client设定计算图,通过session发送给master。Master对图进行执行的过程。这个设计用dataflow替代了具体执行指令,当有新的想法时,可以高效的完成。不必修改大原创 2020-05-31 08:10:13 · 192 阅读 · 0 评论 -
分布式机器学习模型并行的理解two
针对于模型并行,我的理解是可以把神经网络的模型拆开,每一层放到一个worker中。例如模型有三层。可以放到3个worker中。worker1、worker2、worker3。 前向传播。worker1计算完成的输出是worker2的输入。worker2和worker3同理。 self.net1 = torch.nn.Linear(10, 10).to('cuda:0') # 将net1放置在第1个GPU上 self.relu = torch.nn.ReLU() self.net...原创 2020-05-24 11:10:20 · 547 阅读 · 1 评论 -
分布式深度学习系统one
精读了2012年的一篇《Large Scale Distributed Deep Networks》中了解到。分布式深度学习主要是对梯度的计算进行分布。目的为了处理数据量大,内存或硬盘开销大的任务或者为了提高训练效率,节省时间。目前的研究可分为模型分布和数据分布两种。数据分布最常见,数据分布在副本模型环境上分别训练部分数据的过程。经常用到的是ps参数服务器,例如有3个worker,实现数据分布,拿一层来看。Worker1计算完梯度后,传到ps参数服务器。其他的worker操作方式相同。等待3个worker原创 2020-05-23 09:31:14 · 574 阅读 · 0 评论 -
parameter sever原理
我认为是在更新的时候。获取parameter sever里的值。这个值应该是最新的那个值。然后计算每个worker的更新梯度。将每个worker更新后的梯度传到parameter sever中。进行同步操作(这里面操作可以根据实际情况设定规则)。 ...原创 2020-04-20 08:29:22 · 168 阅读 · 0 评论