机器学习--自注意力机制4 比较

原创

已于 2024-03-04 19:20:00 修改 · 1.3k 阅读

23 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #人工智能

于 2024-03-02 21:16:04 首次发布

文章探讨了自注意力机制如何应用于图像处理，以及其与卷积神经网络(CNN)和循环神经网络(RNN)的差异。自注意力提供了更灵活的处理方式，但需要更多数据避免过拟合，而CNN是其受限形式。相比之下，RNN在处理序列数据时效率较低，无法并行化。

一、自注意力与CNN

自注意力还可以被用在图像上。到目前为止，在提到自注意力的时候，自注意力适用的范围是输入为一组向量的时候。一张图像可以看作是一个向量序列，如图所示，一张分辨率为 5 × 10 的图像
在这里插入图片描述

可以表示为一个大小为 5 × 10 × 3 的张量，3 代表 RGB 这 3 个通道（channel），每一个位置的像素可看作是一个三维的向量，整张图像是5 × 10 个向量。
在这里插入图片描述

所以可以换一个角度来看图像，图像其实也是一个向量序列，它既然也是一个向量序列，完全可以用自注意力来处理一张图像。

自注意力跟卷积神经网络之间有什么样的差异或者关联?

1.

如图所示，如果用自注意力来处理一张图像，假设红色框内的“1”是要考虑的像素，它会产生查询，其他像素产生键(觉得概念模糊的可以复习一下前几篇文章)。
在做内积的时候，考虑的不是一个小的范围，而是整张图像的信息。
在这里插入图片描述
在做卷积神经网络的时候，卷积神经网络会“画”出一个感受野，每一个滤波器，每一个神经元，只考虑感受野范围里面的信息。