超越YOLOv8！无参注意力+动态ROI的YOLO-APD突破复杂道路场景

【导读】

针对复杂道路（如Type-S曲面）下传统RGB行人检测的局限，本文提出YOLO-APD——一种优化的YOLOv8架构。它集成SimAM注意力、C3Ghost、SimSPPF、Mish激活和IGD模块等关键创新，并引入基于转向动力学的自适应ROI处理。在定制CARLA数据集上，YOLO-APD取得77.7% mAP@0.5:0.95和>96%召回率，显著优于基线（含YOLOv8），且保持100 FPS实时性能。消融实验验证了组件有效性，KITTI评估展示了潜力与适应性需求，为复杂环境下的高精度、高效感知系统提供了新方案。>>更多资讯可加入CV技术群获取了解哦

图片1.png

先进驾驶辅助系统（ADAS）和自动驾驶车辆（AV）的进步有望彻底改变道路安全和交通效率。实现这一潜力的关键在于构建一个强大的感知系统，以分析复杂多变的环境。在这些系统中，行人检测至关重要；它是预防全球每年导致约130万人死亡的交通事故的关键。尽管深度学习（DL）和计算机视觉（CV）取得了显著进展，但在非结构化、几何复杂且不可预测的场景中实现准确及时的行人检测仍面临巨大挑战。

图片2.png

本文介绍了YOLO-APD（YOLO自适应行人检测），一种新型深度学习架构，旨在解决这一问题。通过针对性架构调整使其在复杂道路形状下

表现更优，YOLO-APD显著提升了YOLOv8框架的性能。本研究的主要问题在于，当前基于RGB的检测器在面对Type-S道路、潜在遮挡及需要瞬间决策的复合挑战时，准确性和适应性不足。本研究的主要贡献与创新点总结如下：

新型YOLO-APD架构：基于YOLOv8基准，YOLO-APD引入了独特的SimSPPF模块，通过整合Mish激活函数和SimAM注意力机制，相较于标准SPPF模块，该模块提升了多尺度特征池化效果。此设计旨在恢复在激进池化过程中可能丢失的细微细节。计算高效的C3Ghost模块作为标准C3块的替代方案，在保持特征表示的同时降低参数和FLOPs，这一策略源自GhostNet原理。
通过在主干网络中战略性地添加无参数的SimAM注意力机制，提升特征图质量，突出显示重要的神经元信息，有助于在杂乱场景中区分行人，相较于更复杂的参数化注意力模块，具有显著优势。
一种新型方法利用车辆转向动力学定义自适应感兴趣区域（ROI），显著提升计算效率并将检测资源聚焦于与轨迹相关的区域，尤其在复杂道路场景如Type-S弯道中至关重要。（此内容可通过图2直观展示，该图展示了YOLO-APD的实现方式，如已包含。）
提出的YOLO-APD网络可在复杂道路和环境条件下有效提取多尺度细节特征，召回率高达96%以上，且误检率显著降低。

论文标题：

YOLO-APD: Enhancing YOLOv8 for Robust Pedestrian Detection on Complex Road Geometries

论文链接：

https://arxiv.org/pdf/2507.05376

一、相关工作

实现完全自主驾驶系统的关键在于自主车辆对环境的稳健感知，其中行人检测是至关重要的安全需求。为了将提出的YOLO-APD置于自适应行人检测系统整体改进趋势的背景下，本研究结合了计算机视觉（CV）、深度学习（DL）和自适应系统（AS）的理念。基础CV研究为理解视觉场景奠定了重要规则。DL方法可从原始视觉数据中学习分层特征表示。同时，AS框架提升了系统对环境变化的响应能力。

早期行人检测系统依赖于手动设计的特征，如Haar样式描述符和方向梯度直方图（HOG），这些特征常与支持向量机（SVMs）等分类器结合使用以识别感兴趣的对象。尽管这些早期模型具有历史意义，但它们在面对遮挡、光照变化和类内方差时缺乏鲁棒性。

深度学习的兴起，尤其是卷积神经网络（CNNs），改变了我们对物体检测准确性和可靠性的认知。R-CNN 、Fast R-CNN和Faster R-CNN是首批采用基于区域分类的两阶段检测器，其准确性有所提升。然而，它们常因延迟问题而在实时自主系统中应用受限。

为缓解现有传统方法带来的推理延迟问题，单阶段目标检测器应运而生。它们引入了一种独特方法，可实现图像像素与边界框预测的直接映射，从而提升速度和检测精度。

现有网络在处理遮挡、尺度差异和视觉杂乱时常出现性能问题，尤其是在复杂道路几何结构中，这些结构对道路安全构成高风险。YOLO-APD通过结合新型YOLOv8架构增强（包括SimSPPF、C3Ghost、SimAM和受IGD启发的颈部结构）与基于转向输入的动态ROI机制，解决了这一多方面问题。这一综合方法基于计算机视觉的理论框架进行图像解释，基于深度学习进行特征提取，基于自适应系统实现动态响应，为下一代自动驾驶汽车中的高级行人检测提供了一个单一且有用的框架。

二、YOLO-APD 网络

图片3.png

SimAM 注意力机制

一种无参数的注意力模块 SimAM 被引入到提出的检测网络中，以增强特征提取能力。该模块受哺乳动物神经系统研究的启发，发现较高层级的神经元对周边神经元具有主导作用。因此，该模块（图3）通过生成3D注意力权重对卷积神经网络（CNN）层中的特征图进行操作。

图片4.png

不同区域的关注程度取决于该区域神经元携带的信息重要性。这使得网络能够优先处理目标区域内的重要特征，同时提升目标的特征表示能力。与传统技术不同，该模块无需额外子网络即可生成3D权重。这是通过直接使用特定能量函数计算权重实现的。当前神经元的3D权重可从该函数指定的解析解中推导出。当前注意力模块对同一维度的所有神经元一视同仁，这一点值得提及。在考虑通道维度和空间维度的意义时，该模块为每个神经元分配唯一权重，这与人类注意力的特性一致。SimAM机制也被引入到主干网络中，以验证其在不同任务中的泛化能力。在视觉神经科学中，寻找包含更多重要信息的神经元涉及确定目标神经元是否与附近神经元线性可分。携带不同信息量的神经元以不同方式放电。能量函数的公式可通过最小化实现线性可分性。能量函数在添加正则化项后进行解释。

Mish 激活函数

在提出的 YOLO-APD 架构中，卷积块中通常使用的传统整流线性单元（ReLU）激活函数已被统一替换为 Mish 激活函数。Mish作为一种平滑、连续、自调节且非单调的激活函数，其数学定义为：

图片5.png

Mish激活函数的关键优势在于其在输入域内的连续可微性，这使其与分段线性整流激活函数（ReLU）区分开来。这种平滑性促进了反向传播中更稳定的梯度流，减少了与奇异性相关的潜在优化困难。

此外，Mish 在正方向上的无界性有效解决了由大型正激活值引起的饱和问题，这些问题可能阻碍训练收敛。另一方面，它在负方向上保持有界（接近 ≈ -0.31），且其非单调性质允许小负输入产生具有非零梯度的负输出。

这种行为被认为相对于ReLU能改善信息传播，可能避免“死亡ReLU”问题，即神经元停止活动。Mish的内在形状还提供了一种自我正则化措施，这可能有助于提升模型泛化能力。因此，在YOLO-APD的卷积层中实现Mish，旨在利用这些有益特性提升训练稳定性、检测鲁棒性和整体模型精度。

C3Ghost 模块

为平衡计算需求与特征表示能力，尤其在大规模网络设计中，本研究引入了C3Ghost模块。该模块将C3模块中Cross-Stage Partial Network(CSP)的结构优势与GhostNet的高效轻量级卷积方法相结合。设计 C3Ghost 模块的主要目标是相对于传统卷积块，减少计算负载（FLOPs）和参数数量，同时谨慎保留对检测任务至关重要的关键区分特征。

C3Ghost 的基本设计通过在 C3 模块的瓶颈层中引入 Ghost 卷积，增强了标准卷积，如图 4 所示。幽灵卷积操作首先通过标准卷积生成一组内在特征图。随后，这些特征图经过计算开销较低的线性变换（通常为深度卷积）生成更广泛的“幽灵”特征图阵列。这些幽灵特征图有效地封装了冗余信息，且处理开销极低，显著降低了生成所需特征通道数量所需的计算开销。

图片6.png

另一个独特方面是用Mish激活函数替换了典型的激活函数，如ReLU或SiLU。选择Mish激活函数是基于其更平滑的梯度变化特性。此外，与其他分段线性激活函数相比，其更强的正则化能力使其成为提升所提模型性能的理想候选方案。这些特性有助于实现更稳定的训练动态，并为模型泛化能力的提升提供路径。在提出的模型中，C3Ghost模块作为核心基础组件发挥作用。其架构的核心在于通过Ghost卷积有效生成特征。这一过程结合了C3中成熟的跨阶段部分（CSP）设计原则，并融入了Mish激活函数的优势属性。以这种方式排列，C3Ghost模块使构建深度但计算上可管理的模型成为可能，从而在检测效果和推理吞吐量之间实现实际的权衡。

SimSPPF 模块

YOLOv8 基线算法改进了空间金字塔池化快速（SPPF）模块的实现——这是从早期架构如YOLOv5 模型及其前身中继承的创新。YOLOv8 的优化通过减少内部卷积层的数量，与早期 SPP 变体相比，确保了计算效率。尽管它有效地减少了参数和浮点运算次数，但这种简化可能导致精细特征信息的丢失，从而影响复杂场景下的检测精度。为解决这一潜在权衡并提升SPPF模块的特征表示能力，同时仅以适度的计算成本增加为代价。作者提出用SimSPPF模块替换YOLOv8主干中的SPPF模块，如图2所示。该修改后的模块旨在提升检测准确性，实现性能与效率之间的良好平衡。所提SimSPPF模块的架构细节及伪代码分别如图5和表1所示。

图片7.png

图片8.png

智能聚合与分发（IGD）模块

标准的YOLOv8架构采用了基于特征金字塔网络（FPN）和路径聚合网络（PANet）理念的颈部结构。然而，这种传统架构的关键缺点在于其受限的信息流，其中特征主要在相邻层之间传递。此类架构安排可能削弱重要信息流。上层网络可能成为细粒度特征传播的瓶颈，尤其在更深层网络中。这反过来可能限制模型在所有尺度上有效整合全局特征的能力，从而影响其在需要细粒度细节和更广泛上下文理解的物体上的性能。为克服这一缺陷，本研究提出用新的智能聚合与分发（IGD）模块替换现有的YOLOv8颈部结构。这一修改旨在优化模型在复杂场景中的物体检测能力，如S型道路、其他遮挡场景及光照不足的环境。该方法借鉴了injection-multi和Sim4modules概念。

如图6所示，该架构通过多个分支将不同尺度特征通过顺序自上而下（用于语义增强）和自下而上（用于定位增强）路径进行融合。IGD机制旨在实现跨尺度特征的更全面且并行化的交互，超越了简单相邻层级之间的成对融合。通过允许不同层级的特征同时采集并适配重新分配，模型旨在保留更丰富的多尺度信息并提升融合特征图的表示能力。假设这种改进的融合方法将显著提升检测准确性，尤其对于在提案的YOLO-APD架构中常表现出微妙或上下文依赖特征的异常目标。卷积块中通常使用的常规整流线性单元（ReLU）激活函数已被统一替换为Mish激活函数。

图片9.png

损失函数

YOLO检测算法的整体损失函数是三个主要损失组件的加权求和。分类损失、边界框回归损失和分布式焦点损失，

通常表示为：

图片10.png

该损失函数应用于每个预测类别的分数，有效惩罚与真实标签的偏差。

与动态感兴趣区域（DROI）的集成

除了核心网络评估外，本研究提出了一个概念框架，将YOLO-APD集成到一个利用车辆动态的系统中，如图7所示。车辆转向角度传感器数据可动态计算与前方即时路径对应的感兴趣区域（ROI），尤其在Type-S类型道路转弯时具有重要意义，

图片11.png

如图8所示。系统基于预测的车辆路径横向扩展关键区域，以适应更急的转弯。这种基于DROI的自适应场景处理可降低整体计算负载。这将涉及基于转向角度（θ）和速度（v）的ROI计算模块。其他下游组件，如距离估算模块、碰撞时间（TTC）检查和目标跟踪（例如使用卡尔曼滤波器），对于风险评估至关重要。这些组件的整体协调将触发警告或控制动作，进一步提升ADAS的质量。这种系统级集成仍是未来实施的方向。

图片12.png

三、实验结果与讨论

实验环境配置

使用合成Carla数据集及其对应的注释文件，进行了一次检测实验，首先进行模型训练，参数如表3所示，最后在模拟器中进行测试。模拟实验的硬件和软件配置环境如上表1所示。

图片13.png

为了便于分析改进前后检测效果，以及不同检测算法的性能对比，引入了四个评估指标来全面描述模型的检测精度，包括准确性指标如平均精度（AP）、平均平均精度（mAP）、平均F1分数（mF1），以及鲁棒性分析，其定义如下：

图片14.png

CARLA数据集中的算法比较

为了验证YOLO-APD的性能，本文与其他目标检测模型进行了比较实验，包括Faster RCNN、SSD、YOLOv5、YOLOv7、YOLOv8和YOLOv9。在相同的数据集样本和训练参数配置下，这些检测方法通过结合AP、mAP、F1、FLOPs和参数评估指标进行评估。为了量化所评估模型的能力，建立了一组特定的性能基准。这些基准包括AP@0.5、mAP、FPS、平均F1得分（mF1）、每张图像的推理时长（TD）、计算负载（FLOPs）以及模型参数数量，如表4所示。从这些实验数据中可以看出一个一致的模式：模型在检测准确性和推理效率之间始终保持平衡。尽管SSD实现了相对较高的FPS（200），但其检测精度显著较低（mAP为60.5%）。YOLOv5作为中等性能的模型，将mAP提升至66.1%，但其较低的FPS（100）和较高的推理延迟（每张图像10毫秒）限制了其在实时应用中的适用性。相比之下，Faster R-CNN 实现了较高的检测精度（AP@0.5 为 90.1%，mAP 为 62.5%）。然而，其推理速度仅为 5 FPS，难以实际应用。这一性能瓶颈源于其巨大的计算开销（169.82 GFLOPs），使其无法部署在实时系统中。YOLOv7 和 YOLOv8 在检测性能和推理速度上均有显著提升，mAP 得分分别为 67.7% 和 71.5%，并具备实时处理能力（~120 FPS）。然而，两者均面临显著的计算成本：

YOLOv7 需要157.1 GFLOPs。相比之下，YOLOv8 虽以 67.7 GFLOPs略微高效，但其参数数量（20.04M）过大，限制了其在资源受限的嵌入式系统中的可扩展性。

图片15.png

然而，在本研究中，YOLO-APD 表现优于所有其他模型。其实现了最高mAP（77.7%）和97.0%的AP@0.5，优于其他模型。值得注意的是，尽管其FPS（100）略低于SSD和YOLOv7，但仍处于实时自动驾驶应用的可接受范围内。YOLO-APD保持了每张图像10毫秒的稳健推理时间，其FLOPs（76.5G）和参数数量（24.16M）反映了计算资源的平衡使用，尤其与资源消耗更高的YOLOv7和YOLOv8模型相比。尽管相较于SSD算法，内存使用量略有增加，但检测精度和实时处理能力的显著提升足以证明这一权衡的合理性。YOLO-APD的出色性能源于其精心设计的架构。其核心设计在于先进的无锚点检测系统，结合增强的特征融合方法。这种组合使模型能够更可靠地应对行人检测中的常见挑战，包括遮挡、物体尺度的大幅变化以及环境干扰。

KITTI 和 CARLA 数据集比较

在模拟环境中训练的模型的一个关键方面是其对真实世界数据的泛化能力。为了评估实验的可靠性，作者对仅在为本研究开发的 CARLA 数据集上训练的 YOLO-APD 模型在 KITTI 道路驾驶数据集（真实世界数据集）上对 ‘Person’ 和 ‘Car’ 类进行了评估。上表 5 比较了性能。与 CARLA 相比，KITTI 数据集上平均精度（-0.016）略有下降，F1 分数（-0.1734）显著下降。这种性能下降很可能归因于合成（CARLA）与真实世界图像之间的领域偏移效应，以及 KITTI 数据集中明显的类别不平衡，其中行人实例相对于车辆类别明显不足。此类分布差异阻碍了模型对少数类别进行有效泛化的能力。（KITTI）图像之间固有的域迁移效应有关，同时KITTI数据集中存在明显的类不平衡问题，其中行人实例相较于车辆类别的数量明显不足。此类分布差异阻碍了模型在真实世界条件下对少数类别进行有效泛化的能力。

图片16.png

研究进一步揭示了模型在KITTI和CARLA数据集上的类别性能差异。真实世界的KITTI数据集相较于CARLA数据集，平均精度提升了+0.042，F1分数提升了+0.0291。这种优异表现很可能源于KITTI数据集中车辆实例的更高保真度和多样性，后者现象使得车辆检测任务的泛化能力更强。这些发现共同表明，自适应目标检测模型对特定域的具体特征具有高度适应性，例如数据分布、环境真实度程度，以及不同类别的存在频率如何显著影响性能。这进一步强调了检测模型需要具备强大的域适应能力。为了构建一个能够适应上述领域变化或类分布不平衡的更具韧性的模型，必须考虑关键策略。这些策略包括使用目标环境的数据调整模型，开发方法以协调合成数据与真实世界数据的特性，以及创建数据增强以支持代表性不足的类。

图片17.png

聚焦于mAP@0.5:0.95，YOLO-APD达到了接近80%的峰值准确率。其收敛速度更快，整体精度优于其他模型。YOLOv8紧随其后，稳定在70%左右，而YOLOv7和YOLOv5的收敛精度在66%至68%之间。传统架构如Faster R-CNN和SSD表现不佳；其中SSD尤其存在性能波动和学习曲线较慢的问题。

消融研究

为了评估YOLO-APD特定架构改进的独立及组合影响，我们使用CARLA数据集进行了消融研究（详细结果见表6）。研究方法首先基于基础的YOLOv8模型。随后，逐一引入各独立改进模块：首先是SimSPPF模块，接着是SimAM注意力机制，随后采用基于智能聚合与分布（IGD）概念的头部设计，最后引入Mish激活函数。标准YOLOv8模型（如实验1所示）提供了初始性能基准，AP@0.5为0.931，mAP@0.5 0.95的值为0.715。首次实施的修改（实验2）聚焦于用提出的SimSPPF模块替换传统SPPF。这一孤立改动的整体效果相当显著，AP@0.5提升至0.952（相对提升2.1%），mAP@0.5:0.95升至0.729（提升1.5%）。这一立竿见影且显著的性能提升表明，在提案模型架构中纳入SimSPPF具有内在优势。

图片18.png

SimSPPF通过注意力增强池化策略对多尺度上下文特征进行更精细的识别与融合，从而实现了更稳健且一致的检测结果。随后，将无参数的SimAM注意力机制集成到主干网络中（如实验3所示），带来了微小但正向的性能提升：AP@0.5升至0.953，而mAP@0.5:0.95提升至0.732（绝对值增加+0.2%）。与SimSPPFs的模块化影响相比，这些改进较为温和。然而，它们凸显了SimAM在不增加可学习参数的情况下，有选择性地放大特征图中显著神经元激活的实用性。这种模块化集成有助于在计算开销极小的情况下提升YOLO-APD性能。引入受IGD启发的头部（Exp4）带来了显著的权衡。尽管AP@0.5指标略微下降至0.952，但mAP@0.5:0.95评分（衡量在更严格IoU标准下鲁棒性的关键指标）显著提升至0.746（相较于Exp3绝对提升1.4%）。这种差异揭示了IGD头部在提升模型定位物体并区分物体能力方面的关键作用。这种增强的定位能力是以在更宽松的0.5 IoU标准下检测数量略微减少为代价的。然而，对于自动驾驶等应用，高空间保真度是不可或缺的，此类针对性改进具有重要价值。Exp5 代表 YOLO-APD架构的最终迭代。Mish 激活函数被应用于整个网络，实现了本研究中检测性能的最大提升。默认的SiLU激活函数在多个模块中被战略性地替换为Mish，以提升特征提取和性能。AP@0.5的性能提升至0.971（相较于Exp4绝对提升1.8%），而mAP@0.5:0.95达到0.774（绝对提升2.8%绝对增益）。这一性能飞跃很可能归因于Mish平滑、非单调的特性。这种平滑性促进了更好的梯度流和更优化的训练动态。所得模型（YOLO-APD）实现了更高的精度，并在复杂检测场景中展现出更强的泛化能力。

结论

本文提出基于YOLOv8的增强型物体检测网络YOLO-APD，专门针对复杂道路几何环境（如Type-S道路）中自动驾驶车辆的稳健高效行人检测进行优化。

通过集成新型SimSPPF模块进行多尺度特征提取、高效的C3Ghost块、无参数的SimAM注意机制、Mish激活函数以及受Gather-and-Distribute启发的检测头，YOLO-APD实现了更准确的检测结果。通过集成新型SimSPPF模块进行多尺度特征提取、高效的C3Ghost块、无参数的SimAM注意力机制、Mish激活函数以及受Gather-and-Distribute启发的检测头，YOLO-APD在具有挑战性的自定义CARLA数据集上实现了出色的准确率（77.7%的mAP@0.5:0.95）和高行人召回率（>96%）。与基线YOLOv8和其他成熟的单阶段目标检测器相比，该模型在检测性能、速度（100 FPS）和计算效率之间实现了有效平衡。在真实世界KITTI数据集上的评估凸显了挑战以及对更平滑领域适应的迫切需求，但这一情境也表明YOLO-APD为真实世界部署提供了坚实的架构基础。这标志着在开发可靠且

适应性强的行人检测算法以及成本效益高的基于RGB的感知系统方面取得了重要进展，该系统可用于复杂动态环境中的自主导航。未来研究的方向是通过针对性的域适应技术，解决所提模型在模拟环境与真实世界性能之间的差异。进一步研究还可涉及基于车辆动态的动态感兴趣区域系统优化，利用量化等技术优化模型以适配嵌入式硬件部署，以及探索与互补模态的传感器融合。