MultiScaleRoIAlign

原创已于 2022-03-10 21:14:28 修改 · 3k 阅读

7 ·

CC 4.0 BY-SA版权

文章标签：

#深度学习 #pytorch #transformer

于 2022-03-10 21:11:27 首次发布

python 同时被 2 个专栏收录

82 篇文章

订阅专栏

图像识别与目标检测

28 篇文章

订阅专栏

博客探讨了PyTorch中MultiScaleRoIAlign操作的使用和输出形状的困惑。作者通过代码示例展示了该方法如何处理不同大小的特征图和RoIs，并解释了为何输出形状不是预期的[12, 5, 3, 4]，而是[6, 5, 3, 3]。文章提到了关键点在于RoIs在不同特征图上的应用方式，以及在计算时如何聚合信息。作者通过参考多个资源最终理解了这个问题。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

这几天在看一个代码，看到这个方法，官方给的代码样例：

        >>> m = torchvision.ops.MultiScaleRoIAlign(['feat1', 'feat3'], 3, 2)
        >>> i = OrderedDict()
        >>> i['feat1'] = torch.rand(1, 5, 64, 64)
        >>> i['feat2'] = torch.rand(1, 5, 32, 32)  # this feature won't be used in the pooling
        >>> i['feat3'] = torch.rand(1, 5, 16, 16)
        >>> # create some random bounding boxes
        >>> boxes = torch.rand(6, 4) * 256; boxes[:, 2:] += boxes[:, :2]
        >>> # original image size, before computing the feature maps
        >>> image_sizes = [(512, 512)]
        >>> output = m(i, [boxes], image_sizes)
        >>> print(output.shape)
        >>> torch.Size([6, 5, 3, 3])

当时很奇怪，输入除了 feat2 不要用，feat1，feat3都要用，但是我当时很奇怪的是：明明两个featuremap，按理输出的shape应该是 shape= [12，5，3，4]，为啥是[6, 5, 3, 3]？

我当时的想法是，有两个feature map，那6个box应该分别在每个feature map上进行找box对应区域，这个想法是错的，下图见解：