集智书童 | YOLOv7插上时序的翅膀 | 轻量级时序融合策略实现MOT20Det数据集85.5% mAP-优快云博客

本文链接：https://blog.youkuaiyun.com/csdn_xmj/article/details/149334572

本文来源公众号“集智书童”，仅用于学术分享，侵权删，干货满满。

原文链接：YOLOv7插上时序的翅膀 | 轻量级时序融合策略实现MOT20Det数据集85.5% mAP

精简阅读版本

本文主要解决了什么问题

1. 单帧目标检测模型缺乏时间上下文感知能力：现代YOLO等图像级检测器如YOLOv7在视频应用中表现不佳，因为它们独立处理每一帧，忽略了视频序列中的时序信息。
2. 现有视频目标检测方法复杂度高、难以部署：许多基于视频的检测方法引入了复杂的模块（如光流、注意力机制或循环网络），导致计算开销大、模型复杂，难以满足实时性要求。
3. 标注成本高限制了多帧方法的应用：大多数视频检测方法需要对每帧进行密集标注，增加了数据准备的负担和成本。

本文的核心创新是什么

1. 提出轻量级多帧集成策略：将多个连续视频帧沿通道维度堆叠作为输入，仅对最新帧进行监督训练，从而隐式地学习时序信息，无需显式建模时间依赖关系。
2. 两种融合策略适配YOLO架构：
- • 早期融合（标准卷积）：通过共享权重的卷积层直接从原始像素中联合学习时空特征。
- • 分组卷积融合（后期融合）：每帧独立提取低级特征后进行拼接，延迟时间信息融合。
3. 弱监督训练机制：仅对最新帧提供标签，其余帧作为无监督上下文，降低了标注需求，适用于标注受限场景。
4. 贡献BOAT360数据集：发布一个包含动态水面平台鱼眼视频的目标检测数据集，用于推动真实世界视频检测研究。

结果相较于以前的方法有哪些提升

1. 检测鲁棒性显著增强：
- • 在MOT20Det数据集上，使用7帧输入的YOLOv7-tiny模型mAP@0.5达到85.5%，比单帧Baseline提升了4.4个百分点。
- • 在BOAT360数据集上，3帧输入使YOLOv7-tiny的mAP@0.5提升了12.8%。
2. 轻量模型性能大幅提升：
- • 多帧YOLOv7-tiny与完整YOLOv7之间的性能差距被显著缩小，表明该方法特别适合资源受限设备。
3. 保持高效与实时性：
- • 参数增加极少（如YOLOv7-tiny从6.006M增加到6.011M），推理速度在NVIDIA Orin AGX上达55 FPS，支持边缘部署。
4. Sparse采样有效平衡性能与效率：
- • 使用步长为3的3帧输入可获得与密集7帧相当甚至更优的性能，减少了冗余帧带来的噪声干扰。

局限性总结

1. 对于大模型提升有限：
- • YOLOv7等高性能模型由于本身具有较强的单帧检测能力，多帧输入带来的增益较小（如mAP@0.5:0.95仅提升0.9%）。
2. 时间窗口选择敏感：
- • 过大的时间窗口（如9帧）会引入噪声并降低精度，需根据具体任务调整帧数与采样间隔。
3. 未探索自适应帧选择机制：
- • 当前采用固定帧数或固定间隔采样，未来可结合动态帧选择以进一步优化性能。
4. 融合方式仍较简单：
- • 虽然早期融合效果优于分组卷积，但仍未引入更复杂的时序建模机制，可能限制了更深层次的时间信息挖掘。

深入阅读版本

导读

现代基于图像的目标检测模型，如YOLOv7，主要独立处理单个帧，从而忽略了视频中自然存在的宝贵时间上下文。与此同时，现有的基于视频的检测方法通常引入复杂的时序模块，显著增加了模型大小和计算复杂度。在监控和自动驾驶等实际应用中，运动模糊、遮挡和外观突变等瞬时挑战会严重降低单帧检测性能。为了解决这些问题，作者提出了一种简单而高效的方法：将多个连续帧堆叠作为输入输入到基于YOLO的检测器中，而仅监督对应于单个目标帧的输出。这种方法利用时间信息，对现有架构进行最小化修改，保留了简单性、计算效率和实时推理能力。

在具有挑战性的MOT20Det和作者的BOAT360数据集上的大量实验表明，作者的方法提高了检测鲁棒性，特别是对于轻量级模型，有效缩小了紧凑型与重型检测网络之间的差距。此外，作者贡献了BOAT360基准数据集，该数据集包含从船上捕获的标注鱼眼视频序列，以支持在具有挑战性的真实世界场景中多帧视频目标检测的未来研究。

1 引言

现代目标检测方法，特别是YOLO架构（如YOLOv7 [1]），在单帧图像基准测试中取得了显著性能。然而，在机器人、监控系统和自动驾驶等以视频为中心的应用场景中部署时，这些方法往往表现不佳，因为它们利用时间信息的能力有限。单帧检测器通常独立处理每个视频帧，未能利用前帧中的有价值信息，从而降低了应对现实世界挑战（包括遮挡、运动模糊和外观快速变化）的鲁棒性。

为解决这一局限性，作者提出了一种简单而有效的策略：将多个连续帧堆叠起来输入检测网络，并仅对最新帧的检测输出进行监督。这种方法隐式地使网络能够在处理的最早期阶段直接从原始像素数据中学习时序和运动信息，有可能在不显著增加模型复杂度或训练开销的情况下增强目标检测的鲁棒性。

与以往使用额外计算密集型模块显式建模时间动态的方法不同，例如循环网络[2]、光流估计[3]或时间注意力机制[4]、[5]，作者提出的方法能够无缝集成到现有的单帧架构中，且仅需最小限度的适配。重要的是，它不需要为每个帧提供密集标签，这与经典的视频目标检测方法形成对比。它仅接收无标签的前置视频帧作为额外的上下文，从而有效地将作者的方法归类为Sparse或弱监督学习方法[6]。

图片

图1：多帧目标检测的网络适应策略。作者研究了两种将单帧检测器扩展为支持多视频帧输入的方法。(上)早期融合（标准卷积）：输入帧沿通道维度堆叠，并通过第一层的共享卷积进行处理。这允许网络直接从原始像素中联合学习时空特征。(下)后期融合（分组卷积)：每个帧由分组卷积设置中的独立卷积核独立处理。早期层在通过连接合并之前提取每帧的Low-Level特征。这将时间融合推迟到网络的后期。两种方法都只需要修改前几层，因此它们轻量级且与现有的预训练模型兼容。

具体而言，作者通过适配第一个卷积层以适应多个输入帧，扩展了YOLOv7和YOLOv7-tiny。作者探索了两种卷积适配策略：通过像素级堆叠帧实现直接早期融合，以及组卷积，其中每个帧在特征级连接之前独立处理。

作者在MOT20Det数据集[7]上评估了作者的方法，这是一个以拥挤环境和频繁遮挡为特点的具有挑战性的行人检测基准。作者的结果表明，整合时间信息可以提高轻量级模型（如YOLOv7-tiny）的检测性能。此外，作者在BOAT360数据集上验证了作者方法的一般化能力，该数据集包含了由移动鱼眼相机捕捉的动态场景，展示了作者方法的鲁棒性和广泛适用性。

总之，作者的主要贡献如下：

• 一种轻量级但高效的时间整合策略，用于YOLO目标检测器，该策略在保持计算效率的同时提高了检测鲁棒性，且仅需最小的架构修改。
• 大量的实证验证，展示了在遮挡、运动模糊和快速外观变化等条件下，相较于单帧YOLO Baseline 模型，在挑战性数据集（包括MOT20Det和作者的BOAT360数据集）上实现了性能提升。
• 基准数据集贡献，提供BOAT360数据集，其中包含从动态水面平台捕捉的标注鱼眼视频序列，以支持在论文被接受后，在多帧视频目标检测动态真实世界环境中的进一步研究。

2. 相关工作

A. 单帧目标检测

目标检测随着深度卷积网络的发展取得了巨大进步。Faster RCNN [8]、YOLO [9]、[1] 和 RetinaNet [10] 等架构在静态图像上展现了强大的性能。近年来，YOLOv7 [1] 等模型进一步优化了准确性和速度之间的权衡，实现了在边缘设备上的实时性能。

然而，这些模型主要独立处理每一帧，并未利用视频中自然存在的时序一致性。相比之下，作者的方法将多个连续帧作为输入，在保持YOLO检测器架构的简单性和速度优势的同时，提供了时序上下文。

B. 视频目标检测

视频目标检测旨在通过利用跨帧的时间信息来提高检测的鲁棒性。早期工作提出了简单的技术，如相邻帧之间的特征聚合[3]或检测跟踪流程[11]。较新的方法引入了流引导特征扭曲[3]、时间注意力[12]或循环记忆网络[13]。

尽管这些方法取得了显著的效果，但它们通常需要复杂的架构或多阶段训练流程，这使得它们难以集成到实时系统中。作者的方法提供了更简单的替代方案，而无需添加大型时序建模模块，因此更适合轻量级和可部署的应用。

C. 带Sparse监督的多帧输入

已有若干研究探索将多个帧直接输入到检测器中。在[14]中，研究了通过堆叠帧进行简单的早期融合，但通常仅限于两个帧，或依赖于如3D CNN等复杂的视频模型[15]。

此外，虽然大多数方法对视频序列中的每一帧（或几乎每一帧）进行监督[16], [17], [18], [19]，但作者提出仅对单帧进行监督，同时仍能利用多输入的优势。这减少了标签依赖性，并且非常适合于标注密度有限的场景。事实上，许多提出的目标检测数据集源自视频，其中大多数帧因场景多样性而被舍弃[20], [18], [21]。作者的方法能够利用这些数据集以几乎免费的方式获得更好的性能。

D. 目标检测中的模型可解释性

近年来，诸如Grad-CAM [22]、Grad- CAM++[23] 和 Eigen-CAM [24] 等可解释性工具能够帮助可视化哪些区域会影响预测结果。在作者的研究中，作者应用Grad- CAM++来定性分析YOLO检测器在使用单帧与多帧输入时分别关注哪些区域。

3. 方法论

A. 问题表述

给定一个视频序列，作者的目标是通过利用多个连续帧的信息来提高目标检测，同时在每个输入堆栈上仅对模型进行单帧监督。这种设置降低了标注成本，并引入了时间上下文，有助于在遮挡、运动模糊和外观变化下的检测。

为了将知识从预训练的单帧模型中迁移，每个组被初始化为原始第一层权重的副本。随后，第二卷积层以与早期融合相同的方式进行调整，确保与扩展的特征通道数兼容。

为了简洁地比较这些策略，表I展示了在将网络适配于多帧输入时对第一个卷积层所做的示例修改。

图片

表 I： 针对多帧输入的第一卷积层的适配。本表比较了原始单帧设计与两种多帧方法：EF Multi（早期融合）和GC Multi（分组卷积）。作者假设输入的是N个RGB帧，大小为640X640。应用32个核和步长为2。

D. 训练策略

作者框架的一个关键优势在于其弱监督设置： 尽管每个输入由多个帧堆叠组成，但在序列中只有最新的帧 I_t 与真实标注相关联。如图2所示，前面的未标注帧被视为时间上下文，使模型能够提取跨时间的运动模式和时序依赖关系。这种设计显著降低了标注要求，因为它消除了对序列中每个帧进行标注的需要。作者的方法适用于那些进行密集帧级标注不切实际或成本高昂的场景，例如长时间监控录像或移动平台上的车载记录。

在训练过程中，输入是一叠n帧。为了保持空间对齐，对每叠中的所有帧一致地应用诸如缩放、平移、旋转和裁剪等增强操作，这些操作会改变图像的空间特征。

图片

图2：弱监督训练设置概述。多个帧被堆叠并输入YOLO模型，但只有最新的帧 I_t （ Token 为红色)提供监督。较早的帧作为无标签上下文，帮助模型提取时间线索，而无需额外的标签。 Token 帧的Sparse性可以根据应用进行调整。

标准YOLO损失函数用于目标性、分类和边界框回归。所有配置均训练了500个epoch，并选择最佳预训练权重（所有均达到最终epoch之前）用于测试。

E. 所提出方法的优势

作者的方法提供：

• 简洁性：仅对现有模型进行少量修改。
• 效率：参数和计算开销最小。Sparse监督：每个堆栈只需要 Token 一帧。

作者在实验中证明了该方法提高了检测的鲁棒性，特别是在存在遮挡和运动伪影的挑战性场景中。

4. 实验

A. 数据集

作者使用两个不同的数据集来评估作者提出的多帧目标检测方法。这些数据集在相机设置、环境条件和场景复杂度方面有所不同，为测试作者方法的一般化和性能提供了一个坚实的基础。这些数据集的总结见表II。

• MOT20Det（公开数据集）：一个大规模行人检测数据集，在拥挤条件下由多个静态监控摄像头捕获。每个标注目标包括围绕可见行人的紧邻边界框，为目标检测提供了具有挑战性的基准，特别是在严重遮挡和密集环境中[7]。
• BOAT360（作者的数据集）：通过安装在船桅上的鱼眼相机从移动的船上捕捉。标注的目标是不同距离水面上的浮标。由于船的持续运动和不稳定的环境，BOAT360为评估在动态和非结构化背景下以及相机运动场景下的小目标检测模型提供了独特的视角。

图片

表 II： 数据集特征

每个数据集都具备不同的相机运动特征、物体密度和环境条件，这使得它们非常适合评估作者提出的多帧检测方法的有效性和泛化能力。

由于MOT20Det数据集仅提供指定的训练和测试集，作者将官方训练序列进一步分为4/5用于训练，1/5用于验证。官方测试序列专门保留用于最终评估。对于BOAT360数据集，作者将收集到的视频序列分为3/5用于训练，1/5用于验证，1/5用于测试。

B. 评估指标

作者使用标准的COCO风格指标[26]评估检测性能，包括精确率（P）、召回率（R）、IoU阈值为0.5的平均精度均值（mAP@0.5），以及从0.5到0.95以0.05为步长的多个IoU阈值上的平均精度均值（mAP@0.5:0.95）。

作者还报告了模型参数、NVIDIA RTX3090上的浮点运算次数（FLOPS）以及Orin AGX嵌入式GPU上的推理速度。

C. 结果

作者在MOT20Det数据集上评估了作者的多帧检测框架，并在BOAT360数据集上验证了其泛化能力。

1. 时间上下文的影响：如表III所示，引入多个帧显著提高了检测性能。堆叠三个相邻的帧使比单帧 Baseline 提高了4.4个百分点。随着帧数的增加，性能进一步提升，在5帧和7帧时达到峰值，分别达到85.5%的和47.8%的。

然而，使用9个相邻帧会降低精度和整体mAP，这表明过大的时间窗口引入的是噪声而非有用的运动信息。这指向了一个最佳的时间上下文范围，用于平衡新信息和稳定性。

图片

表III： 相邻帧数量对MOT20Det测试集检测性能的影响。

2. Sparse时间采样：由于在密集设置中，7个相邻帧产生了最佳准确率（表III），作者探索了使用更少、间隔更宽的帧是否能够实现相似的时间覆盖并达到相当的结果。如表IV所示，步长为3的3帧（跨越6帧）和步长为2的5帧（跨越8帧持续时间）在mAP和召回率上均与7帧相邻 Baseline 持平或表现更优。此外，一种强调近期帧同时保留长时上下文的动态采样配置也表现出竞争力。总体而言，Sparse时间采样为密集堆叠提供了一种有效且高效的替代方案，平衡了时间覆盖和输入效率。

图片

表IV： 时间步长采样对MOT20Det检测性能的影响

3. 早期融合与分组卷积：作者研究了一种变体，其中第一层卷积层对帧应用分组卷积，实现早期特征提取的分离。其直觉在于将Low-Level特征提取限制在每帧独立进行，仅在后续层中混合时间信息。然而，表V中的结果表明，与标准早期融合相比，性能始终下降。

这表明在像素 Level 早期融合时空信息使网络能够学习更丰富的联合特征，而通过帧（分组）限制Low-Level通道则阻碍了有效的特征集成。

图片

表V： 第一层分组卷积对MOT20Det检测性能的影响

4. 扩展到更大模型：作者评估了作者的方法在较大YOLOv7模型上的适用性，该模型相较于其微型变体提供了更高的 Baseline 精度。如表VI所示，添加时间上下文仅对已经强大的单帧 Baseline 产生了微小的改进。作者假设，高容量的YOLOv7模型已经实现了强大的单帧性能，因此留给额外时间信息进一步提升检测的机会较少。

图片

图3：在具有挑战性的视频场景中的定性比较：（a）离开图像边界，（b）遮挡，（c）运动模糊，以及（d）阳光眩光。顶层：比较单帧 Baseline （绿色框）与作者的多帧YOLOv7模型（蓝色框）的检测结果。中间层：单帧 Baseline 的Grad- Heatmap 。底层：来自作者多帧模型的 Heatmap ，显示了时间上下文带来的改进的焦点和空间理解。

值得注意的是，3帧相邻设置在上提供了轻微的提升（+0.9），而Sparse配置，如3帧步长3的分组卷积，在复杂度增加最小的情况下，能获得具有竞争力的结果。

重要的是，YOLOv7-tiny的多帧版本大大缩小了与YOLOv7的性能差距，突出了时间建模的价值，尤其是对于部署在资源受限设备上的紧凑型模型。

图片

表VI： 不同输入设置对YOLOv7在MOT20Det上的性能影响

5. 计算开销：部署多帧检测器的一个重要考虑因素是计算成本。表VII总结了不同配置下RTX3090上的参数数量和GFLOPS。

值得注意的是，多帧模型参数的增加非常小：例如，从YOLOv7-tiny的1帧输入增加到7帧输入，模型的参数量仅从6.006M增加到6.011M，增幅不到0.1%。

推理速度保持实时，如表VIII所示。作者的YOLOv7-tiny多帧检测器在NVIDIA Orin AGX上实现了55 FPS，适合对延迟有严格限制的机器人部署。

6. 扩展到BOAT360数据集：作者在BOAT360数据集上进行了进一步评估，该数据集的特点是移动相机、鱼眼畸变和动态水景。如表IX所示，使用3帧输入时取得了最佳结果，在YOLOv7-tiny 和YOLOv7 上均显著优于单帧 Baseline 。然而，当帧数超过5帧时，性能略有下降，这可能是由于远距离帧之间的场景变化过快所致。

这表明作者的多帧框架能够很好地泛化到新的领域，并且当场景动态变化迅速时，适度的时序上下文就足够了。

图片

表 VII： YOLOv7-tiny 和 YOLOv7 Baseline 模型在不同多帧输入配置下的模型大小和计算成本比较。

图片

表 VIII： 在NVIDIA Orin AGX上1024×1024分辨率图像的推理速度（FPS）

最后，为了定性验证作者的研究结果，作者在图3中展示了视觉比较。这些示例展示了具有挑战性的场景，其中多帧检测器在单帧 Baseline 之上表现出明显优势，包括图像边界处物体的部分截断、运动模糊、遮挡和阳光眩光。在这些情况下，多帧模型（蓝色框）显示出更强的鲁棒性，与单帧模型（绿色框）相比，正确检测到更多物体，突出了其在处理困难现实条件方面的有效性。除了检测输出，作者还使用Grad-[23]为单帧 Baseline 和作者的多帧模型可视化了基于梯度的类激活图。这些激活图是从网络的倒数第二层导出的，因为最后一层专门用于生成检测Head，缺乏有意义的空间特征。这些图揭示了模型在推理过程中关注的位置。 Baseline 在存在视觉挑战时通常产生弥散的激活。相比之下，多帧模型表现出与物体区域更一致的局部注意力，表明更强的时序感知能力。这些定性见解进一步突出了在训练和推理过程中结合多个帧的好处。

5. 结论

在这项工作中，作者提出了一种简单而有效的策略，通过利用标准单帧检测器架构中的多帧时间上下文来增强目标检测。通过在输入层堆叠连续帧，并仅监督最新帧的检测输出，作者的方法丰富了早期特征提取过程，而不会引入过多的复杂性或计算开销。

通过对MOT20Det和BOAT360数据集的全面实验，作者证明了像YOLOv7-tiny这样的轻量级模型能显著受益于时序信息，检测精度相对提升高达8%。作者的消融研究表明，适度的时序上下文（例如3到7帧）和时序步长采样对于最大化性能提升至关重要，而帧的早期融合优于分组卷积。此外，作者的方法在具有挑战性的动态环境中表现良好，这在BOAT360数据集上的优异性能得到了证明。