说明:此文只分析STN层的原理。
STN由三个部分组成:
1、定位网络
生成空间变换参数,如二维仿射变换参数:a11,a12,a21,a22,t1,t2。
可以是任意的回归网络,如卷积网络,全连接网络等
2、栅格生成器
由变换参数获取在输入特征图上面的采样位置。下面详细解释。
设U的shape为(H,W,C),对应于高、宽、通道数,我们想要变换之后的特征图为V,
V的shape为(H’,W’,C)。
首先我们根据V的尺寸定义一个H’*W’的栅格G,栅格上的每一个节点Gi就对应着变换后特征图V上对应像素的坐标(xit,yit)。
接下来我们要做的就是找到栅格上每一节点在输入特征图U上对应的坐标点(xis,yis),换句话说,就是对于输出特征图上的每个像素坐标(xit,yit),找到与之对应的输入特征图上的像素坐标(xis,yis)