Convolutional Sequence to Sequence Learning

本文探讨了一种卷积神经网络(CNN)在序列到序列学习中的架构,包括模型的整体架构、位置向量、卷积块结构和多步注意力机制。在编码器和解码器中,卷积层和非线性变换层被用于捕获上下文信息。此外,还介绍了优化技巧,如归一化策略和初始化方法,以确保模型的稳定学习。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

论文链接:https://arxiv.org/abs/1705.03122

一、模型框架(A Convolutional Architecture)

1、模型的整体架构图:

2、位置向量(Position Embeddings)

  • 对于源句子:我们令源句子为 我们将其向量化为 其中 是词向量矩阵D中的一行。我们将X中的每个词的绝对位置编码成与词向量相同大小的位置向量: 。我们将XP相加可得到最终输入元素的表示: 其中 。这样encode的最终就是E
  • 对于目标句子:由于在训练期间我们的目标句子是已知的所以我们可以对目标句子 做一样的处理最终得到: ;所以训练期间的decoder的输入就是G。

3、卷积块结构(Convolutional Block Structure)

        编码器和解码器都是由一个卷积快堆叠而成,每个卷积块由一个卷积层和一个非线性变换层组成。

  • 卷积层:
  1. 对于一个核宽(kernel)为k的卷积层,它的每一个输出元素 都包含了其输入序列中的k个元素  )的信息;这相当于给输入词
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值