Convolutional Sequence to Sequence Learning

最新推荐文章于 2024-07-11 09:23:29 发布

原创

最新推荐文章于 2024-07-11 09:23:29 发布 · 1.4k 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文探讨了一种卷积神经网络（CNN）在序列到序列学习中的架构，包括模型的整体架构、位置向量、卷积块结构和多步注意力机制。在编码器和解码器中，卷积层和非线性变换层被用于捕获上下文信息。此外，还介绍了优化技巧，如归一化策略和初始化方法，以确保模型的稳定学习。

论文链接：https://arxiv.org/abs/1705.03122

一、模型框架(A Convolutional Architecture)

1、模型的整体架构图：

2、位置向量(Position Embeddings)

对于源句子：我们令源句子为我们将其向量化为其中是词向量矩阵D中的一行。我们将X中的每个词的绝对位置编码成与词向量相同大小的位置向量：。我们将X和P相加可得到最终输入元素的表示：其中。这样encode的最终就是E。
对于目标句子：由于在训练期间我们的目标句子是已知的所以我们可以对目标句子做一样的处理最终得到：；所以训练期间的decoder的输入就是G。

3、卷积块结构(Convolutional Block Structure)

编码器和解码器都是由一个卷积快堆叠而成，每个卷积块由一个卷积层和一个非线性变换层组成。

卷积层：

对于一个核宽(kernel)为k的卷积层,它的每一个输出元素都包含了其输入序列中的k个元素 )的信息;这相当于给输入词

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。