一、自注意力与CNN
自注意力还可以被用在图像上。到目前为止,在提到自注意力的时候,自注意力适用的范围是输入为一组向量的时候。一张图像可以看作是一个向量序列,如图所示,一张分辨率为 5 × 10 的图像

可以表示为一个大小为 5 × 10 × 3 的张量,3 代表 RGB 这 3 个通道(channel),每一个位置的像素可看作是一个三维的向量,整张图像是5 × 10 个向量。

所以可以换一个角度来看图像,图像其实也是一个向量序列,它既然也是一个向量序列,完全可以用自注意力来处理一张图像。
自注意力跟卷积神经网络之间有什么样的差异或者关联?
1.
如图所示,如果用自注意力来处理一张图像,假设红色框内的“1”是要考虑的像素,它会产生查询,其他像素产生键(觉得概念模糊的可以复习一下前几篇文章)。
在做内积的时候,考虑的不是一个小的范围,而是整张图像的信息。

在做卷积神经网络的时候,卷积神经网络会“画”出一个感受野,每一个滤波器,每一个神经元,只考虑感受野范围里面的信息。

文章探讨了自注意力机制如何应用于图像处理,以及其与卷积神经网络(CNN)和循环神经网络(RNN)的差异。自注意力提供了更灵活的处理方式,但需要更多数据避免过拟合,而CNN是其受限形式。相比之下,RNN在处理序列数据时效率较低,无法并行化。
最低0.47元/天 解锁文章
6134

被折叠的 条评论
为什么被折叠?



