从STN网络到deformable convolution

最新推荐文章于 2025-05-14 22:27:44 发布

cmajalis

最新推荐文章于 2025-05-14 22:27:44 发布

阅读量3.8k

点赞数 2

CC 4.0 BY-SA版权

分类专栏： deep learnning 论文分析

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/cmajalis/article/details/80825061

本文详细介绍了Spatial Transformer Network（STN）的来源、动机、网络结构、反向传播及其优势，并通过多个实验展示了STN在不同场景的应用。此外，还探讨了Deformable Convolution的算法原理及其实现，它借鉴了STN的思想，通过学习offset field实现更灵活的特征映射。这两者都在计算机视觉任务中展现出了强大的变换不变性和性能提升。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1 STN (Spatial Transformer Network)

1.1 来源

论文来源：https://arxiv.org/pdf/1506.02025.pdf

参考博客：

1. https://blog.youkuaiyun.com/ly244855983/article/details/80033788（论文解读）

2. https://blog.youkuaiyun.com/xbinworld/article/details/69049680 （梯度流动图）

3. https://blog.youkuaiyun.com/l691899397/article/details/53641485（这里有caffe代码分析）

1.2 动机

普通CNN能够显式学习到平移不变性，隐式学习到旋转不变性、伸缩/尺度不变性（通常学的不够好），但是attention机制的成功告诉我们，与其让网络自己隐式学习某个能力，不如为它显式设计某个模块，让它更容易学习到这个能力。

因此，设计STN的目的就是为了显式地赋予网络以上各项变换（transformation）的不变性（invariance）。

1.3 网络结构

如上图所示，STN由Localisationnet（定位网络），Grid generator（网格生成器）和Sampler（采样器）三部分构成。

1. Localisation Net

Localisation Net 的目标是学习空间变换参数θ，无论通过全连接层还是卷积层，LocalisationNet 最后一层必须回归产生空间变换参数θ。

输入：特征图U ，其大小为 (H, W, C)

输出：空间变换参数θ（对于仿射变换来说，其大小为（6，））

结构：结构任意，比如卷积、全连接均可，但最后一层必须是regression layer来产生参数θ，记作θ= f_loc(U)

2. Grid Generator

该层利用LocalisationNet 输出的空间变换参数θ，将输入的特征图进行变换，这个决定了变换前后图片U、V之间的坐标映射关系。

以仿射变换为例，将输出特征图上某一位置(x_i^t,y_i^t)通过参数θ映射到输入特征图上某一位置(x_i^s,y_i^s)，上标t表示target，上标s表示source，计算公式如下：

因此，GridGenerator的作用是，输入target坐标，计算输出source坐标，因为STN的目标是从source中的不同坐标采集灰度值“贴”到target中，从而实现target的变换。

举个例子，经过仿射变换，对原图产生了平移和旋转，使得原本倾斜的图片变正了，如下图所示：

3. Sampler

Sampler根据GridGenerator产生的坐标映射关系，把输入图片U变换成输出图片V。

在计算中， (x_i^s,y_i^s)往往会落在原始输入特征图的几个像素点中间，因此需要利用双线性插值来计算出对应该点的灰度值：

最低0.47元/天解锁文章

200万优质内容无限畅学

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。