Spatial Transformer Networks-空间注意力机制

Spatial Transformer Networks (STNs)引入了空间注意力机制,旨在解决CNN模型的空间不变性问题。通过仿射变换,STNs能够处理图像的平移、旋转、缩放等变换,确保模型在图像变化时仍能有效识别。网络结构包含定位网络、参数化采样网格和可微分图像采样。实验结果显示,STNs在MNIST、SVHN数据集上表现优于传统CNN,且在Fine-Grained Classification任务中展示出对特定区域(如鸟类头部)的关注能力。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

前言

在上一篇讲SENet的文章中,里面提到的Squeeze-excitation block引入的技术可以被称作是通道注意力机制:channel attention。

既然提到了注意力机制,那么这几篇就来说说注意力机制的事情,SENet是在2019年提出的,在2015年的时候,就有一篇论文提出了另一个维度的注意力机制:空间注意力机制,论文为:Spatial Transformer Networks。

SENet的基本逻辑是通过一个Squeeze的模块按通道提取出每个通道的特征(global pooling),然后通过一个excitation模块来综合和分配每个通道的注意力权重(在反向传播过程中训练得到的一个通道注意力权重)。这样的一个通道的权重分配就别称作通道注意力机制(权重大的就相当于分配了更多的注意力过去),详情可以参考我之前的文章。

那么这个空间注意力模型是解决什么问题呢?在论文的一开篇就提到了:Convolutional Neural Networks define an exceptionally powerful class of models, but are still limited by the lack of ability to be spatially invariant to the input data in a computationally and parameter efficient manner.

也就是要增加CNN网络模型的空间不变性问题。空间不变性是个啥意思呢,大致意思呢是说:不变性意味着即使目标的外观发生了某种变化,但是依然可以把它识别出来。这对图像分类来说是一种很好的

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

新兴AI民工

码字不易,各位看客随意

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值