【论文阅读|半监督小苹果检测方法S3AD】

论文题目 : : Semi-supervised Small Apple Detection in Orchard Environments

项目链接:https://www.inf.uni-hamburg.de/en/inst/ab/cv/people/wilms/mad.html

摘要(Abstract)

农作物检测是自动估产或水果采摘等精准农业应用不可或缺的一部分。然而,由于缺乏大规模数据集以及图像中农作物的相对尺寸较小,农作物检测(如果园环境中的苹果检测)仍面临挑战。在这项工作中,以半监督的方式重新制定了苹果检测任务,从而应对了这些挑战。为此,提供了大型高分辨率数据集 MAD,其中包括 105 张标注了苹果实例的图像和 4440 张未标注的图像。利用该数据集,还提出了一种基于上下文关注和选择性窗口的新型半监督小苹果检测方法 ,以提高小苹果检测的挑战性,同时限制计算开销。在 MAD 和 MSU 数据集上进行了全面的评估,结果表明 的性能大大优于强大的全监督基线方法,包括几个小物体检测方法,最高可达 14.9%。此外,利用数据集关于苹果特性的详细注释,分析了相对大小或闭塞程度对各种方法结果的影响,量化了当前面临的挑战。

1 引言(Introduction)

收获前产量估算是农业有效规划作物收获、销售、运输和储存的重要组成部分[1,7,34,38]。产量估计通常依赖于劳动密集型的人工在样本位置进行计数[1,7,34,38],以及天气信息和历史数据[1,7,38]。然而,由于果实负荷、土壤、光照等因素的自然差异,这样的估计是不准确的[12,34]。最近,精准农业受到了极大的关注,出现了基于视觉的自动产量估计方法[1,7]、质量控制方法[37]或水果采摘方法[9]。 alt

开发此类方法的一项重要任务是可靠地检测作物[8]。尽管最近取得了一些进展[1,7,8,34,37],但这项任务仍然具有挑战性。例如,果园中苹果的检测仍然很困难,原因是多种因素造成的复杂环境:(1)苹果分布密集,(2)其他作物或树叶造成的遮挡和阴影,(3)苹果与树木相比体积较小。这些影响也可以从图1中的例子中看到,图1描绘了果园环境中的一棵典型的苹果树。尤其具有挑战性的是小苹果大小,因为物体检测器的性能在小物体上显著下降[4],这是由于cnn固有的下采样和有限的GPU资源阻碍了整个高分辨率图像的处理。此外,有限的数据可用性[3,8]是苹果检测的另一个挑战。

为了解决上述挑战,在一般目标检测中提出了几种方法。为了处理有限的数据量,采用迁移学习(transfer learning)[35]利用在任务中学习到的特征,而标注的工作量更少。此外,还提出了半监督方法,通过一致性[10,36]和伪标签方法[33,41]将无标签的数据纳入目标检测。为了改进具有挑战性的小目标检测,研究人员探索了几个方向[5],包括多尺度特征提取[18,19,32,42],通过学习特定尺度的特征来改善小目标的特征表示,基于注意力的方法[20,44,45]旨在选择网络中的相关区域或特征,而窗口策略(tiling strategies)[25,39,43]则在输入层面上提高目标的相对大小。

在本文中,作者通过以半监督的方式重新制定问题来解决果园环境中苹果的挑战性检测。为了解决这个问题,提出了一种新的半监督小苹果检测方法 和一个新的用于半监督学习的大规模苹果检测数据集MAD。MAD由来自苹果园的4545张高分辨率图像组成,105张图像中有14667个手动标注的苹果,其余的图像支持半监督学习。为了以半监督的方式解决苹果检测问题,并改进小苹果的挑战性检测,提出了 。它由三个主要模块组成:(i)用半监督伪标签框架Soft Teacher[41]训练的目标检测器,允许利用数据集中大量无标签的数据,(ii)利用苹果和树冠之间的上下文关系来定位感兴趣区域的TreeAttention模块,以及(iii)从感兴趣区域中裁剪窗口的选择性窗口(selective tiling)模块使目标检测器能够利用完整图像的分辨率,提高对小苹果的检测性能。在对两个数据集的全面评估中,利用上下文注意和选择性窗口,在小苹果和所有尺寸的苹果上显示了 的强大结果。

综上所述,本文的贡献有三个方面:

•将苹果检测重新制定为一个半监督任务,限制了标注工作量,并发布了一个数据集MAD,其中包含105个有标签的和4,440个无标签的高分辨率图像,其中有14,667个手动标注的苹果,这有助于新的表达方法。

•提出了一种新的苹果检测方法 ,它利用半监督学习、上下文注意力和选择性窗口来解决有限数量的有标签数据和小苹果大小。

•通过在MAD和MSU数据集上对 进行全面评估来验证,将其与强大的全监督小物体检测方法进行比较,并评估三个苹果属性的影响。

2 相关工作(Related Work)

本节简要回顾农作物检测、农作物检测数据集和小目标检测的相关工作。

农作物检测(Crop Detection) 在精准农业中,农作物的检测主要是基于标准目标检测器的变化。例如,文献[14]修改了YOLOv3来检测番茄,而文献[46]采用了SSD。文献[22]利用更快的R-CNN,并增加图像拼接和窗口窗口步骤来处理成排的植物。对于芒果的检测,文献[12]修改了YOLOv2,文献[29]提出了修改后的YOLOv4。

对于苹果检测,文献[3]和文献[6]分别采用了带有标准窗口(standard tiling)和闭塞感知检测模块的Faster R-CNN。转向YOLO,文献[37]提出了带有DenseNet主干的YOLOv3变种,以检测不同生长阶段的苹果。在文献[13]中,YOLOv3的性能通过预处理和后处理步骤得到增强。最近,文献[11]的作者使用非局部特征级注意力增强了YOLOv4,并使用卷积块注意力模块来检测低分辨率图像中的苹果。

相比之下,作者以半监督的方式解决苹果检测问题,并通过引入上下文注意和选择性窗口(selective tiling)来专注于检测小苹果。

**农作物检测数据集(Crop Detection Datasets) ** 农作物检测数据集适用于各种农作物[21]。然而,大多数农作物检测数据集在大小上是有限的。根据文献[8],最大的苹果检测数据集包含1404个有标签的图像[34],在低分辨率图像上有7065个标注实例。文献[3]也适用于苹果检测数据集,包含841张图像和5,765个标注实例。MiniApple数据集[8]包含更多的标注实例,在1001张中等分辨率(1280 × 720)的图像中有41325个标注实例。最近,MSU苹果数据集V2[6]被提出,该数据集包含900张苹果树冠特写图像中的14,518个带注释的苹果。

与这些数据集相比,作者提出的数据集MAD非常适合于包含有标签和无标签图像的半监督苹果检测。此外,该数据集比现有的数据集更大,有4545张高分辨率图像。

小目标检测(Small Object Detection) 小目标检测问题已经用不同的策略解决。参见文献[5]进行广泛的调查。一种主流的策略是使用多尺度或特定尺度的特征来改善小目标的表示。虽然文献[18]以自下而上和自上而下的方式学习特定尺度的特征,文献[19]重新组合这些特征以改进多尺度表示。文献[31]和文献[32]改进了目标检测器的训练策略,通过降低尺度内噪声,从特征金字塔转向图像金字塔。文献[23]通过由粗到细检测提高了该方法的效率。为提高特定尺度特征的表达能力,文献[17]调整不同尺度目标的感受野。最近,文献[42]采用了一种基于由粗到细查询的检测机制对连续更高分辨率的特征图进行检测。

除了改进特征表示外,一些工作还利用窗口(tiling)[25,39,43]或超分辨率[2,16,24]来提高特征的空间分辨率。另一种工作是利用注意力机制来突出小目标的特征或位置[20,44,45]。作者的苹果检测方法 与多尺度和窗口方法最为相关。然而,它被明确设计为在半监督框架中解决苹果的检测问题,例如,利用领域知识来学习上下文注意力。

3 数据采集与数据集(Data Acquisition & Dataset)

为了方便苹果检测任务的新半监督方法的制定,作者提出了修道院苹果数据集(Monastery Apple Dataset ,MAD)。这些数据是与德国Bad Oldesloe的一家修道院合作获得的。使用分辨率为4k (3840 × 2160)的DJI-Mini 3 Pro无人机采集了修道院苹果园16棵树的视频数据。数据收集是在2022年9月的一个月里,在不同的照明条件下进行的,以确保多样性。

为了生成训练、验证和测试分区,首先将6(训练)、2(验证)和4(测试)树的视频分配给各自的分区。从视频中,手动选择图像进行标注,以最大限度地提高数据的多样性。训练、验证和测试分成66、12和27帧,分别有10,089、1,288和3,290个带标注的实例,如表1所示。苹果是用边界框手工标注的。来自数据集的具有真实值的样本图像如图2所示。此外,自动为每个标注过的苹果分配了三个属性,分别代表相对大小、遮挡程度和光照条件,使得能够评估这些条件对方法的影响。训练分区中的4,440个无标签图像由未标注的6个训练树的帧和剩余4个未分配给其他分区的视频/树的帧组成。

4 方法(Method)

alt

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值