Attention本质剖析

最新推荐文章于 2025-11-07 23:26:01 发布

原创

最新推荐文章于 2025-11-07 23:26:01 发布 · 1.4k 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文探讨了在语音识别和机器翻译中，传统Encoder-Decoder框架存在的问题，引出注意力机制（Attention）的重要性。通过介绍常规思路和K-V-Q理解，阐述了Attention如何动态地赋予输入不同权重，提高模型表现。同时，提到了不同的对齐模型和计算方式，以及Transformer中关键的Self-Attention原理。

1. 为什么需要attention？ Why

语音识别或机器翻译领域传统Encoder-Decoder方案遇到性能瓶颈。

传统Encoder直接将所有输入(x1, ..,x4)编码至固定向量c，再通过decoder进行解码，该思路缺陷显而易见，每个输入没有显示的权值表示，导致每个输入的贡献相当。

0?wx_fmt=png

图1. 传统Encoder-Decoder框架

基于此缺陷，设计出带attention的Encoder-Decoder框架，如图2。这里面用C1，C2和C3代替了原始的C，Ci是输入的不同组合构成的，也就是说，Decoder不同时刻关注输入的组合是不一样的。例如解码Y1时只需要关注x1和x2，x3和x4的权重可以为0。

&n

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。