原文:Fruit Detection and Counting in Apple Orchards Based on Improved Yolov7 and Multi-Object Tracking MethodsFruit Detection and Counting in Apple Orchards Based on Improved Yolov7 and Multi-Object Tracking Methods
摘要:
随着在线水果销售的日益普及,准确预测水果产量对于优化物流和存储策略变得至关重要。然而,现有的基于手动视觉的系统和传感器方法已被证明不足以解决水果产量计数的复杂问题,因为它们与作物重叠和可变照明条件等问题作斗争。最近,基于CNN的目标检测模型已经成为计算机视觉领域中一种有前途的解决方案,但由于诸如遮挡和相同水果之间的相异等挑战,它们在农业场景中的有效性受到限制。为了解决这个问题,我们提出了一种新的变体模型,该模型将视觉变换的自注意力机制(一种非CNN网络架构)与最先进的对象检测模型Yolov7相结合。我们的模型利用了两种注意力机制,CBAM和CA,并在苹果图像的数据集上进行了训练和测试。为了在复杂环境中实现跨视频帧的水果计数,我们结合了两种基于卡尔曼滤波和运动轨迹预测的多目标跟踪方法,即排序和级联排序。我们的结果表明,Yolov7-CA模型实现了91.3%的mAP和0.85的F1评分,与单独使用Yolov7相比,mAP提高了4%,F1评分提高了0.02。此外,三种多目标跟踪方法证明了所有三个测试视频的帧间计数MAE的显著改善,使用我们的多目标跟踪方法比单独使用yolov7提高了0.642。这些发现表明,我们提出的模型有可能改善水果产量评估方法,并可能对水果行业的决策产生影响。
本研究中的工作可归因于:
1.提出了一种改进的Yolov7架构,该架构结合了自注意力机制,以增强对水果的检测性能。
2.提出了一种结合SURF的级联多目标跟踪方法来完成苹果帧间的检测和计数。
CBAM注意机制关注通道注意和空间注意之间的联系,其结构如下图所示。CBAM最初采用类似SE的结构来获得不同的通道权重,随后压缩所有特征图以获得空间注意力分数。最后,将两个分数线性相乘以获得最终的输出特征图。CBAM机构的结构如图所示
解读 CBAM (Convolutional Block Attention Module)
这是一个结合了通道注意力和空间注意力的轻量级模块。它的核心思想是让网络既能关注“什么”是重要的(通道注意力),也能关注“在哪里”是重要的(空间注意力),从而对特征图进行更精细的优化。
CBAM 结构拆解
CBAM 模块的整体结构是串联的,先进行通道注意力,再进行空间注意力。
1. 通道注意力模块 (Channel Attention Module)
这个模块旨在回答“对输入的特征图而言,什么是重要的?”这个问题。
-
输入: 输入一个尺寸为 C×H×W 的特征图。
-
池化: 分别对输入特征图进行最大池化 (MaxPool) 和平均池化 (AvgPool),得到两个尺寸为 C×1×1 的特征向量。最大池化能捕捉最重要的信息,而平均池化能捕捉全局背景信息。
-
共享 MLP: 这两个向量被送入一个共享的多层感知机 (Shared MLP)。这个 MLP 包含一个降维层和一个升维层,用于学习通道之间的复杂关系。
-
特征融合: MLP 的输出被逐元素相加,然后经过 Sigmoid 激活函数,生成一个尺寸为 C×1×1 的通道注意力权重向量。
-
加权: 这个权重向量与原始输入特征图进行逐通道相乘,得到一个经过通道加权后的特征图。
2. 空间注意力模块 (Spatial Attention Module)
这个模块旨在回答“对通道加权后的特征图而言,哪里是重要的?”这个问题。
-
输入: 输入是上一步得到的通道加权特征图。

最低0.47元/天 解锁文章

被折叠的 条评论
为什么被折叠?



