Spatial Pyramid Pooling in Deep Convolutional --- Spp_net

最新推荐文章于 2024-03-04 20:11:03 发布

原创最新推荐文章于 2024-03-04 20:11:03 发布 · 2.3k 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #深度学习

papers 专栏收录该内容

13 篇文章

订阅专栏

本文介绍了微软亚研院2015年提出的SPP_NET网络结构，该网络利用Spatial Pyramid Pooling Layer实现任意大小图像输入的同时，输出固定长度特征向量。文中详细阐述了stride与window的计算方法及窗口映射到特征图的过程。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

微软亚研院2015的一篇文章，优点是能够满足任意大小图像的输入。

主要思想：

（1）Spatial Pyramid Pooling Layer. 正是因为该层，才让Spp_net能够实现任意图片的输入，并且得到固定长度的特征向量：

这里写图片描述

stride和window的计算：

这里写图片描述

（2）Mapping a Window to Feature Maps. 将原图输入Spp_net后，通过下面图片中介绍的方法，能够将原图中的点映射到feature map上，为object detection打下基础：

这里写图片描述

主要代码实现（基于theano/keras）：

（1）spp_layer:

class SppLayer(Layer):
    def __init__(self,bins,feature_map_size=0):
        super(SppLayer,self).__init__()
        self.strides = []
        self.windows = []
        self.a = feature_map_size#feature_map size
        self.bins = bins
        self.num_bins = len(bins)

    def get_output(self,train):
        self.input = self.get_input(train)
        for i in range(self.num_bins):
            self.strides.append(int(math.floor(self.a/self.bins[i])))
            self.windows.append(int(math.ceil(self.a/self.bins[i])))

        self.pooled_out = []
        for j in range(self.num_bins):
            self.pooled_out.append(downsample.max_pool_2d(input=self.input,
                                                              ds=(self.windows[j],self.windows[j]),
                                                              st=(self.strides[j],self.strides[j]),
                                                              ignore_border=False))

        for k in range(self.num_bins):
            self.pooled_out[k] = self.pooled_out[k].flatten(2)
            """
            print self.windows[k]
            print self.strides[k]
            print 'K: '+str(k)
            """
        # batch_size * image_size
        self.output = T.concatenate([self.pooled_out[0],self.pooled_out[1],self.pooled_out[2]],axis=1)

        return self.output

(2)Mapping a Window to Feature Maps:

def window_to_feature_map(window_point_x1,window_point_y1,window_point_x2,window_point_y2,
                          window_size_x,window_size_y,map_size_x,map_size_y):
    map_point_x1 = window_point_x1*math.ceil(map_size_x/window_size_x)-1
    map_point_y1 = window_point_y1*math.ceil(map_size_y/window_size_y)-1
    map_point_x2 = window_point_x2*math.ceil(map_size_x/window_size_x)-1
    map_point_y2 = window_point_y2*math.ceil(map_size_y/window_size_y)-1

    return map_point_x1,map_point_y1,map_point_x2,map_point_y2