吴恩达深度学习练习第五课第二周注意力机制机器翻译基于Keras

最新推荐文章于 2021-02-06 11:29:13 发布

得克特

最新推荐文章于 2021-02-06 11:29:13 发布

阅读量1.2k

点赞数 2

CC 4.0 BY-SA版权

分类专栏：深度学习文章标签：注意力机制机器翻译 Keras

本文链接：https://blog.youkuaiyun.com/weixin_40548136/article/details/87011402

深度学习专栏收录该内容

34 篇文章

订阅专栏

本文详细介绍了一种包含双层LSTM神经网络的Attention模型构建过程，该模型利用Pre-Bi-Attention和Post-Attention机制处理序列数据，特别适用于日期翻译任务。通过Keras实现模型，并提供了核心代码解释。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

文章目录

模型构建

机器学习和深度学习学习目录 python3

模型构建

模型介绍

模型包含两层LSTM神经网络，Pre-Bi-attention(双向)是构建Attention的核心部分输入为 $T_x$ 个。
第二层LSTM在Post-Attention层后，输入为 $T_y$ 个，这里我们注意下Post-Attention的输入包含 $s^{(t-1)}和c^{(t)}$ ，没有将 $y^(t-1)$ 作为输入是因为这里我们的日期翻译模型(YYYY-MM-DD)相邻元素的关系不大。
注意：此模型会有两次连接，Pre-Bi-Attention正向和反向的 $a^{(t)}$ 值，以及Post-attention的输出 $s^{(t)}$
在这里插入图片描述
来看下Attention层的详细情况，首先repeat $s^{(t-1)}$ 分别与隐藏层状态 $a^{(t)}$ 连接通过全连接层和softmax层获得权重， $context^{(t)}$ 即为权重化的 $a^{(t)'}$

接下来我们把核心代码解释下，导入Keras模块。

from keras.layers import Bidirectional, Concatenate, Permute, Dot, Input, LSTM, Multiply
from keras.layers import RepeatVector, Dense, Activation, Lambda
from keras.optimizers import Adam
from keras.utils import to_categorical
from keras.models import load_model, Model
import keras.backend as K
import numpy as np
repeator = RepeatVector(Tx)
concatenator = Concatenate(axis=-1)
densor1 = Dense(10, activation = "tanh")
densor2 = Dense(1, activation = "relu")
activator = Activation(softmax, name='attention_weights') #激活函数(axis=1)
dotor = Dot(axes = 1)

计算Attention

构建one_step_attention函数计算注意力 $context^{t}$

def one_step_attention(a, s_prev):  
    s_prev = repeator(s_prev)#RepeatVector复制Tx份s_prev
    concat = concatenator([s_prev,a])#连接s_prev和a
    e = densor1(concat)#全连接，激活函数为tanh
    energies = densor2(e)#全连接层，激活函数为relu
    alphas = activator(energies)#softmax层获取权重
    context = dotor([alphas,a])#计算context向量
    return context

model构建

n_a = 32#Bi-LSTM隐藏层大小
n_s = 64#Post-LSTM隐藏层大小
post_activation_LSTM_cell = LSTM(n_s, return_state = True)
output_layer = Dense(len(machine_vocab), activation=softmax)#输出machine词汇大小的概率预测
def model(Tx, Ty, n_a, n_s, human_vocab_size, machine_vocab_size):
	X = Input(shape=(Tx, human_vocab_size))
    s0 = Input(shape=(n_s,), name='s0')#post-attention LSTM 上一神经元输出
    c0 = Input(shape=(n_s,), name='c0')#post-attention LSTM 上一神经元隐藏状态
    s = s0
    c = c0
    outputs = []
    a = Bidirectional(LSTM(n_a,return_sequences=True),input_shape=(m,Tx, n_a*2))(X)# Bi-LSTM
    for t in range(Ty):
        context = one_step_attention(a, s)
        s, _, c = post_activation_LSTM_cell(context,initial_state=[s,c])
        out = output_layer(s)
        outputs.append(out)
    model = Model(inputs=[X,s0,c0],outputs=outputs)
    return model

训练模型

接下来组建并训练模型

model = model(Tx, Ty, n_a, n_s, len(human_vocab), len(machine_vocab))
#model.summary()#查看模型
opt = Adam(lr=0.005,beta_1=0.9,beta_2=0.999,decay=0.01)  # 梯度计算函数
model.compile(loss='categorical_crossentropy',optimizer=opt,metrics=['accuracy'])#组建完整模型--损失函数、梯度计算函数、模型计算方法采用准确率

s0 = np.zeros((m, n_s))
c0 = np.zeros((m, n_s))
outputs = list(Yoh.swapaxes(0,1))

model.fit([Xoh, s0, c0], outputs, epochs=1, batch_size=100)