mask softmax的tensorflow实现

原创已于 2022-04-01 18:15:25 修改 · 976 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#kaldi #tensorflow #机器学习

于 2022-04-01 17:55:05 首次发布

机器学习同时被 2 个专栏收录

17 篇文章

订阅专栏

编程语言

12 篇文章

订阅专栏

这篇博客探讨了原始TensorFlow中softmax计算存在的问题，即在mask位置的值仍会参与计算。作者提出了一种改进的mask_softmax方法，确保mask位置的权重变得更小。通过示例展示了新方法如何更准确地排除mask的影响，从而得到期望的softmax输出。

部署运行你感兴趣的模型镜像

原始的tensorflow实现是通过把一个mask的位置改成一个非常小的负数，然后加到原来的向量上实现的:

	 adder = (1.0 - tf.cast(mask, inputs.dtype)) * (
          _large_compatible_negative(inputs.dtype))

      # Since we are adding it to the raw scores before the softmax, this is
      # effectively the same as removing these entirely.
      inputs += adder
      if isinstance(self.axis, (tuple, list)):
      if len(self.axis) > 1:
        return tf.exp(inputs - tf.reduce_logsumexp(
            inputs, axis=self.axis, keepdims=True))
      else:
        return backend.softmax(inputs, axis=self.axis[0])

实测这样其实mask的位置还是会参与softmax的计算，例如:

key = tf.convert_to_tensor([[1,2,3],[4,-1,-1],[3,1,-1]],dtype=K.floatx())#3,3,3
mask = tf.cast(tf.not_equal(key,-1),K.floatx())

这样算出来的softmax输出是:

[[0.09003057 0.24472848 0.66524094]
 [0.9867033  0.00664835 0.00664835]
 [0.8668133  0.11731042 0.01587624]]

感觉不是很完美，想了一个完美一点的mask softmax，可以把对应mask位置的softmax权重改的更小一点:

from keras import backend as K

def mask_softmax(x,mask,axis=-1):
    max = K.max(x, axis=axis, keepdims=True)
    e = K.exp(x - max)
    e_mask = e * mask
    masked_sums = K.sum(e_mask, axis=axis, keepdims=True) + K.epsilon()
    mask_softmax = e_mask / masked_sums
    return mask_softmax
my_softmax = mask_softmax(key,mask,axis=-1)

对应的输出:

[[0.09003057 0.24472846 0.6652409 ]
 [0.9999999  0.         0.        ]
 [0.88079697 0.1192029  0.        ]]

您可能感兴趣的与本文相关的镜像

TensorFlow-v2.15

TensorFlow

TensorFlow 是由Google Brain 团队开发的开源机器学习框架,广泛应用于深度学习研究和生产环境。它提供了一个灵活的平台,用于构建和训练各种机器学习模型