Seq2Seq——Attention模型原理解析

最新推荐文章于 2025-03-14 19:12:39 发布

原创最新推荐文章于 2025-03-14 19:12:39 发布 · 1.2k 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

深度学习专栏收录该内容

5 篇文章

订阅专栏

本文探讨了Seq2Seq模型及其局限性，特别是在翻译任务中无法灵活处理不同部分的源语句信息。为解决此问题，引入了Attention机制，使模型在翻译过程中能够对源语句的不同部分赋予不同的权重，从而提高翻译质量。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

https://zhuanlan.zhihu.com/p/37290775 参考了这篇知乎。

Seq2Seq，即通过Encoder将输入语句进行编码得到固定长度的Context Vector向量，（这个编码过程实际上是一个信息有损压缩的过程，也就是说编码器里所有的信息都要压缩在一个Context Vector中），随后再将Context Vector传给Decoder进行翻译结果的生成，在Decoder端生成每个单词时，均参考来自Encoder端相同的Context Vector。

这种方式相对不够灵活，具体而言，当我们在翻译“机器学习”这的词的时候，并不关心这个词组前面的“我”和“爱”这两个字；而在翻译“我”的时候，也不关心“机器学习”这个词组。因此，一种更好的方式就是引入Attention机制，给予当前待翻译的词更多的权重，使得我们翻译每个词时会对源语句有不同的侧重，如下图所示。

博客等级

码龄11年

366
原创

213
点赞

859
收藏

67
粉丝

关注

私信

热门文章

分类专栏

深度学习 5篇
pytorch 19篇
Linux 2篇
java 60篇
tesnorflow 13篇
计算机基础 45篇
LeetCode 80篇
笔试题 17篇
MySQL 9篇
python 16篇
排序 14篇
数据结构与算法 24篇
二叉树遍历 3篇
Android 12篇
numpy 1篇
pandas 1篇

展开全部收起

上一篇：: 剑指Offer刷题笔记——二叉树中和为某一值的路径

下一篇：: 剑指Offer刷题笔记——二叉树的深度

最新评论

pytorch——nn.Linear()
ttyykx: 非常感谢！！！帮助很大
BiLSTM+CRF
没头脑不高兴社恐: 问下viterbi_decoder中的next_tag_var = forward_var + self.transitions[next_tag]为什么不加feat？要在最后才加？
pytorch——nn.BatchNorm1d()
0xaabb: x_var=x.var(axis=0,unbiased = False) 这里计算方差的时候，需要传入unbiased 取消贝塞尔修正，否则你的代码计算结果和BatchNorm1d计算结果不一致。 BatchNorm1d算子实现是直接除以n的，没有除以n-1
pytorch——embedding层
haha123@: 感谢大佬指点迷津
pytorch——nn.BatchNorm1d()
wanghan0801: nn.BatchNorm2d是用四维的数据做输入，源码里有写，更高的还有nn.BatchNorm3d

大家在看

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。