tf的clip_gradient实现

最新推荐文章于 2023-06-26 16:29:39 发布

ThereIsNoSpoon_

最新推荐文章于 2023-06-26 16:29:39 发布

阅读量812

点赞数 1

CC 4.0 BY-SA版权

本文链接：https://blog.youkuaiyun.com/Wzz_Liu/article/details/85574545

本文介绍了TensorFlow中用于防止梯度爆炸的clip_gradient操作。通过对比不同类型的norm方法，包括简单的截断、l2norm限制、l2norm平均限制以及全局l2norm限制，详细阐述了每种方法的实现原理和效果，强调了clip_gradient对于稳定训练的重要性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

首先，我们平常再实现一次BP

tf.train.GradientDescentOptimizer(0.01).minimize(loss)

但是查看minimize()的源码

grads_and_vars = self.compute_gradients(
        loss, var_list=var_list, gate_gradients=gate_gradients,
        aggregation_method=aggregation_method,
        colocate_gradients_with_ops=colocate_gradients_with_ops,
        grad_loss=grad_loss)

    ...

    return self.apply_gradients(grads_and_vars, global_step=global_step,
                                name=name)

有compute_gradients和apply_gradients两步：

compute_gradients：计算各组权重梯度
apply_gradients：将梯度，以BP的公式更新权重

我们clip_gradient就是在compute_gradients步骤之后，对太大的gradient进行norm操作，防止gradient explosion。
主要的norm方法有以下四种：

1.`tf.clip_by_value(t, clip_value_min,clip_value_max)`

最简单的方式，大于clip_value_max的就令为clip_value_max；小于clip_value_min就令为clip_value_min。

import tensorflow as tf
import numpy as np

A = np.array([[1, 1, 2, 4], [3, 4, 8, 5]])

with tf.Session() as sess:
    print(sess.run(tf.clip_by_value(A, 2, 5)))