《TensorFlow技术解析与实战》第18章 TensorFlowOnSpark

最新推荐文章于 2025-03-10 20:18:30 发布

人民邮电出版社有限公司

最新推荐文章于 2025-03-10 20:18:30 发布

阅读量485

点赞数

CC 4.0 BY-SA版权

分类专栏： TensorFlow技术解析与实战

本文链接：https://blog.youkuaiyun.com/rmyd01/article/details/118604688

TensorFlow技术解析与实战专栏收录该内容

31 篇文章 ¥50.56 ¥99.00

订阅专栏

本文深入探讨了TensorFlowOnSpark的架构及其在MNIST数据集上的实践，展示了如何在Spark集群上进行分布式TensorFlow训练和预测。通过修改少量代码，实现了TensorFlow与Spark的无缝融合，从而在大数据环境中高效执行深度学习任务。

第18章　TensorFlowOnSpark

在第14章我们讲了TensorFlow的分布式运行，在第17章又介绍了使用Kubernetes集群对TensorFlow节点进行调度、监控和失败重启等功能。我们知道，Hadoop生态的大数据系统一般可以分为Yarn、HDFS和MapReduce计算框架，TensorFlow本身的分布式就相当于MapReduce计算框架部分，而Kubernetes就相当于Yarn调度系统。本章要讲的TensorFlowOnSpark是利用远程直接内存访问（Remote Direct Memory Access，RDMA）解决了存储功能和调度，实现了深度学习和大数据的融合。

TensorFlowOnSpark（TFoS）是雅虎推出的开源项目[1]，支持使用Apache Spark集群进行分布式TensorFlow训练和预测。其实，TensorFlow的程序并不能直接作为Spark的程序运行，TensorFlowOnSpark提供了一个程序来进行桥接，本质上是每个Spark Executor启动一个对应的TensorFlow进程，然后通过远程进程通信（RPC）进行交互。