tensorflow 实现BahdanauAttention

最新推荐文章于 2024-01-01 05:15:00 发布

醉意流年go

最新推荐文章于 2024-01-01 05:15:00 发布

阅读量593

点赞数

分类专栏： tensorflow 深度学习deep learning NLP

本文链接：https://blog.youkuaiyun.com/u010626747/article/details/107715674

版权

tensorflow 同时被 3 个专栏收录

25 篇文章

订阅专栏

深度学习deep learning

20 篇文章

订阅专栏

NLP

12 篇文章

订阅专栏

本文详细介绍如何在TensorFlow 1.13.1中实现Bahdanau注意力机制，通过自定义Layer类，使用Dense层计算注意力权重，进而生成上下文向量，适用于序列到序列模型。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

tensorflow 版本： 1.13.1

参考网页(https://github.com/tensorflow/nmt)中的介绍说明进行实现

tensorflow 实现如下：


class BahdanauAttention(tf.layers.Layer):

    def __init__(self, num_units):
        super(BahdanauAttention, self).__init__()
        self.num_units = num_units

        self.w1 = tf.layers.Dense(num_units)
        self.w2 = tf.layers.Dense(num_units)
        self.v = tf.layers.Dense(1)

    def build(self, input_shape):
        self.built = True


    def call(self, inputs):
        # encoder_output.shape: [batch, max_time, hidden_size], decoder_cell_state.shape:[batch, hidden_size]
        encoder_output, decoder_cell_state = inputs[0], inputs[1]

        decoder_cell_state = tf.expand_dims(decoder_cell_state, 1)
        # score.shape: [batch, max_time, 1]
        score = self.v(tf.nn.tanh(self.w1(encoder_output) + self.w2(decoder_cell_state)))
        attention_weight = tf.nn.softmax(score, axis=1)

        # context vector
        context_vector = attention_weight * encoder_output
        context_vector = tf.reduce_sum(context_vector, axis=1)
        return context_vector