mmdetection(3)：Non-local Neural Networks

最新推荐文章于 2025-07-09 10:43:19 发布

冷夏LX

最新推荐文章于 2025-07-09 10:43:19 发布

阅读量868

点赞数 1

CC 4.0 BY-SA版权

分类专栏：检测算法-深度学习

本文链接：https://blog.youkuaiyun.com/u014119694/article/details/93331344

检测算法-深度学习专栏收录该内容

35 篇文章

订阅专栏

文章分析了CNN固定尺寸卷积操作的局限性，引出DCN通过增加偏移量改进，还介绍了更简单粗暴的Non Local方法。阐述了Non Local中特征提取的原理，包括f、g的含义及计算方式，最后提及代码实现，如1x1卷积提取特征等。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

这是篇很有意思的文章，为什么呢，我们来分析一下，
CNN是固定尺寸，大小，位置的卷积操作，但是很多情况下，图像的信息并不是固定尺寸的，然后dcn提出了，参见下文。
https://blog.youkuaiyun.com/u014119694/article/details/93210130
咋搞的呢，就是增加偏移量啊，我还是3x3的卷积，但是取不同位置，给他增加个偏移，是不是就很优秀啊，nonono，有更简单并且粗暴的方法，那就是non local
在这里插入图片描述
请看，g表示原图像素点的特征，f表示位置关系，相当于f表示图中的连接关系，只要点i和j有关系，其f必定很大，然后再乘个当前点的特征，相加，就是改点卷积后的特征，其实这里的f不仅仅表示是否相连，还表示怎么连的，乘上g就表示j点的信息，

ok，so easy ，这样是不是提取的特征更强烈啊。
ok，具体块吐下，w还是卷积操作，只不过卷积的是y，y这里就表示上文中得到的各个点相结合的信息。然后再来个x，表示残差。
在这里插入图片描述

图示也很清楚，这里唯一要解决的就是怎么计算f，原文中定义了几种不同的f，图中theta和phi的结合就表示f，然后乘个g，各个矩阵的维度很清晰。

ok，最后还是要上代码了

全是1x1的没什么好说的，就是提取特征，然后计算，这里不再用3x3的原因就是我已经获取了周围的信息，还用3x3的纯属浪费时间。

self.g = ConvModule(
            self.in_channels,
            self.inter_channels,
            kernel_size=1,
            activation=None)
        self.theta = ConvModule(
            self.in_channels,
            self.inter_channels,
            kernel_size=1,
            activation=None)
        self.phi = ConvModule(
            self.in_channels,
            self.inter_channels,
            kernel_size=1,
            activation=None)
        self.conv_out = ConvModule(
            self.inter_channels,
            self.in_channels,
            kernel_size=1,
            conv_cfg=conv_cfg,
            norm_cfg=norm_cfg,
            activation=None)

前向操作。首先各自1x1卷积，然后把reshape一下，使theta和phi能相互操作，然后pairwise_func表示f函数，这里不再指出，最后乘个g就得到y。

def forward(self, x):
        n, _, h, w = x.shape

        # g_x: [N, HxW, C]
        g_x = self.g(x).view(n, self.inter_channels, -1)
        g_x = g_x.permute(0, 2, 1)

        # theta_x: [N, HxW, C]
        theta_x = self.theta(x).view(n, self.inter_channels, -1)
        theta_x = theta_x.permute(0, 2, 1)

        # phi_x: [N, C, HxW]
        phi_x = self.phi(x).view(n, self.inter_channels, -1)

        pairwise_func = getattr(self, self.mode)
        # pairwise_weight: [N, HxW, HxW]
        pairwise_weight = pairwise_func(theta_x, phi_x)

        # y: [N, HxW, C]
        y = torch.matmul(pairwise_weight, g_x)
        # y: [N, C, H, W]
        y = y.permute(0, 2, 1).reshape(n, self.inter_channels, h, w)

        output = x + self.conv_out(y)

        return output