【阅读笔记】Dynamic Refifinement Network for Oriented and Densely Packed Object Detection

动态细化网络与SKU110K-R数据集：面向定向物体检测

最新推荐文章于 2025-09-24 14:19:35 发布

原创最新推荐文章于 2025-09-24 14:19:35 发布 · 621 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#神经网络 #深度学习 #机器学习

阅读笔记专栏收录该内容

1 篇文章

订阅专栏

该研究提出了一种动态细化网络，包括特征选择模块(FSM)和动态细化头(DRH)，以解决神经元感受野与不同形状和方向物体的失调问题。同时，为了提升模型对定向物体检测的能力，创建了大规模的SKU110K-R数据集，包含旋转边界框的精细标注。实验表明，所提方法在定向物体检测上表现出色。

1 Introduction

目标检测已经取得了显著的进展。然而，由于以下内在原因，定向和高密度物体的检测仍然具有挑战性:一是神经元的感受都是轴向对齐的，形状相同，而物体通常是不同的形状，沿着不同的方向排列。二是检测模型通常使用通用知识进行训练，在测试时不能很好地泛化处理特定的对象。三是数据集有限，阻碍了本任务的发展。为了解决前两个问题，本文提出了一种由特征选择模块组成的动态细化网络(FSM)和动态细化头(DRH)。为了解决相关基准测试可用性有限的问题，本文提出了一个广泛的、完全注释的数据集，即SKU110K-R，它基于面向边界框进行重新标记。

2 Related Work

RoI Trans ：将轴对齐的RoI转换成可旋转的RoI，解决RoI与定向目标之间的错位问题。
SCRDet：在Smooth L1 loss中增加IOU常数因子，解决定向边界框的边界问题。
FSAF：学习一个anchor-free模块动态选择最适合的特征level。
Dynamic anchor feature selection for single-shot object detection：提出一种基于新定位点位置和大小的动态特征选择模块。
SKN：提出使用不同的卷积核在每个位置选择具有不同感受野的特征。
SENet：自适应调整并校准信道特征响应。
CBAM：采取多个空间注意力模型对空间之间的关系进行建模。
Active convolution：用偏移量增加卷积层中的采样位置，该模型在不同的空间位置共享偏移量，训练后的模型参数是静态的。
Deformable convolutional network (DCN) ：对图像中的密集空间变化进行建模，偏移量是动态模型输出。
RoI Trans：学习了五个offsets，类似于位置敏感的RoI Align对齐方式，将轴对齐RoI转换为旋转RoI。
ORN：提出了在卷积过程中主动旋转的有源旋转滤波器。旋转角度是一个超参数，是一个固定的数，所有的位置共享相同的旋转角度。
神经网络引入动态滤波器，根据输入特征和切换样本进行调节。动态滤波器在训练阶段学习滤波器权重，从而可以在推理阶段提取样本特征。
CARAFE：提出一个内核预测模块，该模块负责以内容感知的方式重组卷积核。
DCN和RoI Trans：它们对偏移预测进行动态建模，不改变核权重。

3 Method

3.1 Network Architecture

3.2 Feature Selection Module

FSM 用于自适应地聚合提取不同的核大小、形状和方向的信息。RCL是原始的卷积核，在通过额外conv层学到的参数θ，把之前标准的卷积核变成带有参数θ的旋转卷积核，得到offset，共享输入的特征图，然后输入特征图与offset共同作为旋转卷积层的输入。

3.3 SKU110K-R Dataset

SKU110K-R 是SKU110K的扩展版本。原始SKU110K数据集包含11,762张图片（8,233张用于训练，588张用于验证，2,941张用于测试）和1,733,678个实例。数千家超市商品图片，不同视角、比例、照明条件和噪声条件。SKU110K范围是[-15°,15°]。SKU110K-R将SKU110K图像旋转六个不同的角度（-45°, -30°, -15°, 15°, 30°, 和45°）进行数据扩展和增强。

4 Experiments

5 Conclusion

1. 提出一种基于目标形状和方向的自适应调整神经元感受野的模块。该FSM模块能有效地缓解感受野和目标之间的失调。
2.提出两个DRH，即DRH-C和DRH-R（分别用于分类和回归任务）。这些DRHs可以根据每一个样本的唯一性和特殊性建模，并以一种面向对象的方法进行预测。
3.收集了SKU110K-R，包含对定向边界框精细标注。