Tensor Flow 深度框架的学习(第四天)

本文探讨了TensorFlow在分布式环境下的执行机制,包括通信方式、容错性及模型参数的保存与恢复方法。此外,还介绍了TensorFlow支持的自动求导功能、BP算法的应用及其对GPU内存的影响,以及如何利用TensorFlow执行计算图的子图。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

第四天的学习内容(10-11)

      1.TensorFlow分布式执行时的通信和单机设备间的通信很相似,但是对发送节点和接收节点的实现不同。

      2.Tensor Flow分布式具有容错性。故障检测出来的两种情况:

         (1).信息从发送节点传输到接收节点失败时

         (2).周期性的worker心跳(定时发送一个自定义的结构体,以确保对方知道自己在线,从而确保链接的有效性)检测失败时。

          Variable node每个都会链接一个Save node,每隔几轮迭代就会保存一次数据到持久化的存储系统。同时,每个Variable node都会链接一个Restore node,在每次重启时被调用并恢复数据。

     —>发生故障并重启之后,模型的参数将得以保留,训练将从上一个checkpoint恢复而不需要重头再来。

     3.Tensor Flow在大规模分布式系统上有着相当高的并行效率。

     4.Tensor Flow原生支持求导。

     5.BP算法(back propagation算法)。(由于BP算法需要反向传播计算梯度,会用到计算图开头的tensor,导致这些tensor占用大量的GPU内存,也限制的模型的规模)

     6.Tensor Flow支持单独执行子图,用户可以选择计算图的任意子图,并沿某些边输入数据,同时从另一些边获得输出结果。

    7.Tensor Flow用节点名+port的形式指定数据

        例如:bar:0表示名为bar的节点的第一个输出。

       

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值