李宏毅2022ML第四周课程笔记

最新推荐文章于 2023-08-08 00:49:05 发布

原创

最新推荐文章于 2023-08-08 00:49:05 发布 · 275 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#深度学习 #人工智能 #神经网络 #lstm

本文介绍了自注意力机制在处理序列数据方面的优势，详细解释了自注意力机制的工作原理，包括多头注意力机制及其潜在的问题，并对比了自注意力机制与CNN、RNN的区别。

目录

李宏毅2022ML第四周课程笔记——自注意力机制

为什么引入自注意力机制？

Self-Attention的具体机理

多头注意力机制

CNN vs self-attention

为什么RNN会有奇特的特性

为什么rnn很难使用？

为什么我们把rnn换成lstm？

李宏毅2022ML第四周课程笔记——自注意力机制

为什么引入自注意力机制？

因为之前rnn的使用，我们可以看到是对于序列数据输入的处理，但它不能实现并行处理，只能当上一时刻的输入处理完成才能继续下一步，同时我们希望能对于一长串的vector同时进行处理。

自注意力机制就是这样一种能对一串vector同时处理输出若干序列的方法,同时FC会考虑整个vector集合的属性。

Self-Attention的具体机理

首先我们对于每个输入ai都会分别乘3个不同的weight得到qi、ki、vi，然后通过a1的q1和其它ai的qi计算关联性得到a1i，将所有的a1i通过softmax层之后与对应的vi相乘得到b1，其它为重复过程。

<

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

梦想的小鱼 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。