53、序列到序列架构:编码器 - 解码器与解码器

序列到序列架构:编码器 - 解码器与解码器

1. 编码器 - 解码器架构概述

编码器 - 解码器架构是一种重要的序列到序列架构,它由编码器和解码器两部分组成。在翻译任务中,编码器负责对输入的源序列进行编码,解码器则根据编码结果生成目标序列。

2. 编码器 - 解码器变压器模型

编码器 - 解码器变压器模型由多个相同的编码器层和多个相同的解码器层组成。
|组件|功能|
| ---- | ---- |
|编码器|使用多头注意力和前馈网络对输入序列进行编码|
|解码器|第一个注意力模块使用掩码实现自回归,第二个注意力模块将源序列和目标序列进行融合|

3. 掩码注意力

在翻译序列时,源序列是已知的,而目标序列是逐个符号解码的。为了使解码器在预测时只关注之前的符号,需要对注意力层进行修改,添加一个掩码矩阵。
- 掩码矩阵的创建

def attn_mask(size):
    U = torch.empty(size, size).fill_(float('-inf'))
    return torch.triu(U, diagonal=1)
  • 修改后的注意力函数
def attention_masked(Q, K, V, U):
    d_k = K.size(dim=-1)
  
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值