TensorFlow计算图优化代码剖析

最新推荐文章于 2025-06-15 23:17:23 发布

原创

最新推荐文章于 2025-06-15 23:17:23 发布 · 4.8k 阅读

4 ·

CC 4.0 BY-SA版权

文章标签：

#优化 #tensorflow #计算图

本文深入剖析TensorFlow计算图的优化过程，包括pruning（裁剪无用节点）、const folding（常量打包）、layout（优化tensor布局）、memory管理、arithmetic（数值计算优化）和autoparallel（自动并行）。通过ModelPruner、ConstantFolding等类实现各优化步骤，如裁剪无效节点、转换内存布局以提升GPU效率，以及内存管理和数据交换策略等。

代码路径：tensorflow/core/grappler/optimizers
其中meta_optimizer．cc中的RunMetaOptimizer方法的调用触发对图的不同类型的优化操作．

优化操作分为一下几类：
１．　pruning.裁剪，比如移除一些无用的操作（一旦图建立之后不再使用的stop gradient节点以及Identity节点），优化梯度计算．
２．　constfold．常量打包．
３．　layout. 对tensor的layout针对计算库以及设备进行调整．比如cudnn使用ＮＣＨＷ比较高效．
４．　memory．
５．　arithmetic.
６．　autoparallel．
以上optimizer均可以同时使用．
下面我们对以上六种图优化手段逐一进行代码级剖析．

pruning

ModelPruner类有三个成员函数，　name()方法返回名称，　Optimize方法负责具体的优化操作．　Feedback方法．
目的: 将所有不会被执行的节点都裁剪掉．　也就是那些不会被fanin的节点．如果没有指定fetch节点，将假设整个图都将被执行．　
不能移除必须被保留的节点（在nodes_to_prserve中）；
不能移除驱动control依赖的节点；
不能移除无法确定移除后是否会新增control依赖的节点（比如，移除一个１０条control edge同时驱动１０条control edge，将新建１００条ｅｄｇｅ）；
不能移除与ｆｕｎｃｔｉｏｎ链接的节点，因为会导致后面内联失败；
不能移除被其它设备驱动的节点，因为使用这些节点能够降低通信开销；
不能移除接收引用值的节点，将引用转换成非引用也不行（可能理解的不大对）．