一种用于自动驾驶的增强型特征金字塔目标检测网络
摘要
特征金字塔网络(FPN)构建了一个高层语义特征金字塔,并在相应的金字塔层级中检测不同尺度的目标。通常情况下,同一金字塔层级内的特征在后续目标检测中具有相同的权重,这忽略了不同尺度目标对特征的需求。众所周知,对于大多数检测网络而言,检测小物体和遮挡目标较为困难,因为可利用的信息较少。为解决上述问题,我们提出了一种增强型特征金字塔目标检测网络(EFPN),该网络创新性地构建了增强特征提取子网和自适应并行检测子网。增强特征提取子网引入特征权重模块(FWM),通过加权融合特征图来增强金字塔特征。自适应并行检测子网引入自适应上下文扩展(ACE)和并行检测分支(PDB)。ACE旨在生成自适应扩大后的对象上下文区域和原始区域的特征。PDB则分别利用这两种特征预测分类与回归结果。实验表明,EFPN在Pascal VOC和KITTI数据集上的检测准确率优于FPN。此外,EFPN的性能满足自动驾驶系统的实时性要求。
关键词 :目标检测;特征金字塔网络;特征重校准;上下文嵌入;autonomousdrivingsystems;增强现实
1. 引言
自动驾驶系统通过建模传感器获取的街景信息来认知周围环境,并据此做出驾驶决策。其中,目标检测在构建真实场景中起着重要作用。近年来,深度学习理论和计算能力的提升显著加速了目标检测的发展。如今,目标检测方法分为两类:单阶段和两阶段。两阶段算法广泛应用于对准确率要求较高的任务中。典型的基于深度学习的两阶段检测框架包括特征提取子网络、候选框提取子网络和检测子网络。特征提取子网络[1–3]通过端到端训练过程使用卷积神经网络提取具有高鲁棒性和丰富信息的特征。候选框提取子网络[4,5]从特征图中生成感兴趣区域(RoIs),包括前景正样本和背景负样本。检测子网络利用RoIs的池化特征来预测检测对象的分类与回归结果[5–9]。
为了利用特征提取子网络获得的特征,最初研究人员将最后一个卷积层的单尺度特征输入到后续子网络[5,7,8]中。尽管这些特征富含高层语义信息,但缺乏细节信息。这导致了小物体和遮挡目标的检测性能较差。为解决这一问题,提出了两种网络结构:一种是在不同分辨率的特征层上分别进行预测[10,11],另一种是先合并多分辨率特征,然后在合并后的特征图上进行预测[12,13]。进一步研究表明,结合这两种结构的优势可以获得更精确的结果[14–17]。FPN 是此类结构中的先进网络,它构建了一个具有高层语义的特征金字塔,并在每个金字塔层级上独立进行预测。构建每个金字塔层级特征图的关键设计是横向连接,该连接将来自自上而下路径的语义更强的特征图与来自相同自下而上层级的富含细节定位信息的特征图进行合并。然而,在同一金字塔层级内的特征图在后续目标检测中具有相同的权重,这忽略了不同尺度目标对特征的需求。受图像分类[18]和分割[19]领域中特征增强模块的启发,我们提出了一种通用的特征权重模块(FWM),用于重新校准每个金字塔层级中的特征图。对于每个金字塔层,在空间和通道维度上对特征施加可学习权重,以增强符合不同尺度检测需求的有用特征,并抑制无用特征。随后,重构出具有更强特征表示能力的增强特征金字塔。
在计算共享特征后,候选框提取子网络生成RoIs。随后,检测子网络采用感兴趣区域池化将RoIs映射并提取为固定尺寸的特征,用于分类与回归。然而,对于因尺寸较小或物理遮挡而导致特征信息受限的小物体和遮挡目标,其RoI特征对后续预测的贡献较为有限。研究人员指出,利用超出RoI内容的图像证据有助于目标检测[10,13,20–23]和分割[21]。此类上下文信息可通过空间循环神经网络整合,或通过扩展或形变原始RoI区域获得。我们主要关注通过扩展RoI区域实现的局部上下文嵌入方法。Gidaris等人[20]定义了围绕RoI的十种上下文区域以丰富RoI表示,然后将每个区域的信息分别输入独立的全连接层,并将其拼接作为每个RoI的最终特征。该方法虽提升了准确率,但需计算大量冗余且重叠的上下文块,不利于实时自动驾驶系统。Cai等人[10]将RoI及其更大上下文RoI的特征堆叠在一起,再通过卷积操作压缩为合并的感兴趣区域表示。然而,所有RoI共享一个由人工设定的固定上下文扩展比率,需要精细调参,导致不同尺度目标的上下文信息补充不足或冗余。Wang等人[22]引入局部竞争机制,在三种不同扩展比率的RoI中选择最有用的上下文区域,但所有扩展值仍需手动设置。由于每个目标对上下文信息的需求不同,各RoI所需的上下文补充量也应有所差异。例如,检测小物体往往难以脱离周围上下文,而大物体则更应关注其自身特征。为满足这一需求,我们构建了自适应并行检测子网,创新性地引入自适应上下文扩展(ACE)和并行检测分支(PDB)。我们充分利用FPN的金字塔结构,自适应地为不同尺寸的RoI提供上下文信息。例如,为低分辨率的小物体提供更多上下文信息,而为大物体提供较少信息。随后,上下文扩展感兴趣区域(ceRoI)和原始特征Pn的特征分别作为PDB的输入,独立进行分类与回归预测。借助并行设计,能够充分融合两种特征,既保持了定位精度,又提升了分类性能。
本文其余部分组织如下。在第2节中,我们介绍了所提出的EFPN,其包含创新的增强特征提取子网和自适应并行检测子网。在第3节中,我们在多个开放数据集上对EFPN的目标检测结果进行了评估与讨论。在第4节中,我们介绍了EFPN作为基于视觉的目标检测模块在自动驾驶小车系统中的应用。最后,在第5节中得出结论。
2. 提出的方法
EFPN 是我们提出的用于目标检测的网络。其架构如图1所示。首先,在增强特征提取子网络中,我们以与 FPN 相同的方式生成金字塔特征。每个金字塔层级中的特征通过我们提出的 FWM 进行加权,并重构为一个新的增强特征金字塔,作为后续步骤的输入。其次,在候选框提取子网中,区域候选网络(RPN)[5]用于在增强的特征金字塔图上生成各种形状的锚框。第三,在自适应并行检测子网中,ACE 被应用于提取每个前景 RoI 的 ceRoI 和 RoI 特征。这两类 RoI 特征分别被送入 PDB 以预测分类与回归,得到最终检测结果。
2.1. 增强特征提取子网
通常,FPN首先通过骨干卷积网络的前馈计算构建自下而上层 {C2,C3, C4, C5}。然后,FPN通过将上一个金字塔层级的自上而下特征图与相同金字塔层级的自下而上特征图进行逐元素相加,构造每一层自上而下特征图,如图 2(左)所示。FPN构建的金字塔特征图集合为{P2, P3, P4, P5}。
尽管对生成不同层级的精细合并特征图进行了如此精心的设计,但对于空间和通道特征在多尺度物体上的信息而言,仍然不够强大。我们假设,对合并后的特征图进行空间上和通道上的重新校准,可以促进当前金字塔层的检测。因此,我们提出了FWM来增强金字塔特征。FWM的结构如图2(右)所示。
FWM 首先对每个金字塔层级中特征图的特征依赖性进行建模,并进一步学习特征重要性向量以重新校准特征图,从而突出有用特征。特别地,每个金字塔层级中的 FWM 具有相同的结构,但具有不同的可学习权重,从而产生不同的计算的特征权重。每个 FWM 由三个子模块组成:特征通道权重模块 (FCWM)、特征空间权重模块(FSWM)和特征通道空间权重模块(FCSWM)。FCWM 和 FSWM 分别沿通道和空间位置计算特征重要性向量。FCSWM 将经过 FCWM 和 FSWM 重新校准后的加权特征图组合起来,作为新的金字塔特征图。以下小节将详细描述这三个子模块的设计。
2.1.1. 特征通道权重模块 (FCWM)
FCWM 专注于增强每个金字塔层级中通道方向上的特征。FCWM 首先通过压缩‐激励方法显式地建模通道方向上的特征依赖性,并学习一个通道特定的描述符 [18]。然后,它强调有用通道,以实现每个金字塔层级中特征图更高效的全局信息表达。
假设第n个金字塔层级中的特征图为Pn,它由FPN生成。Hn和Wn分别是Pn的空间高度和宽度。第i个通道特征为Pi n。
At t一开始,我们对Pi n进行全局平均池化以获得全局分布响应Zi n :
$$
Z_i^n = \frac{1}{H_n \times W_n} \sum_{p=1}^{H_n} \sum_{q=1}^{W_n} P_i^n(p, q)
$$
我们使用两个全连接层来映射所有全局分布响应Zn之间的非线性相关性,并获得特征重要性向量 ˆZn:
$$
\hat{Z}_n = W_1^n(\delta(W_2^n Z_n))
$$
其中,W1 n是第一个全连接层的权重,W 2 n是第二个全连接层的权重, δ表示ReLU函数。
然后,我们将ˆZn归一化为[0, 1]作为权重向量:
$$
r_n = \sigma(\hat{Z}_n)
$$
其中 σ 表示 Sigmoid函数。
最后,我们为原始特征 rn 分配权重 Pn,并在通道上重新校准后得到新的特征金字塔 Pcrn:
$$
P_{cr}^n = P_n r_n = [P_1^n r_1^n, P_2^n r_2^n, …, P_n^n r_n^n]
$$
2.1.2. 特征空间权重模块(FSWM)
与FCWM的设计类似,特征空间权重模块(FSWM)沿每个金字塔层级的空间位置增强特征,强调有效像素并抑制无效或低效像素。
我们定义P(p,q)n为在特征点(p,q)处对Pn的所有通道特征的裁剪。首先,我们通过卷积操作对每个点的所有特征进行融合,得到空间重要性向量O(p,q)n :
$$
O_{(p,q)}^n = W_3^n P_{(p,q)}^n
$$
其中W3n是卷积核权重。
然后,我们将ˆOn归一化为[0, 1],作为权重向量tn
$$
t_n = \sigma(\hat{O}_n)
$$
其中 σ 表示 Sigmoid函数。
最终然后,将归一化后的权重在空间上加权到每个像素,以获得新的特征 Psr n:
$$
P_{sr}^n = P_n t_n = [P_{(1,1)}^n t_{(1,1)}^n, P_{(1,2)}^n t_{(1,2)}^n, …, P_{(H_n,W_n)}^n t_{(H_n,W_n)}^n ]
$$
2.1.3. 特征通道空间权重模块(FCSWM)
FCSWM 将通过 FCWM 获得的通道上加权Pcrn与通过 FSWM 获得的空间加权Psrn相结合,生成新的重校准特征Prn。该组合操作通过加法实现:
$$
P_r^n = P_{cr}^n + P_{sr}^n
$$
Prn促使原始特征图在空间上和通道上都更具信息性。在EFPN中,我们用重校准增强金字塔特征 {Pr2,Pr3, Pr4, Pr5}替代初始特征金字塔特征{P2,P3,P4,P5} ,作为候选框提取子网络和检测子网络的输入特征。
2.2 自适应并行检测子网
为了注入物体上下文信息,我们设计了自适应并行检测子网,如图 1 所示。自适应并行检测子网包含ACE和PDB。ACE计算每个感兴趣区域的上下文区域扩展比例,然后在感兴趣区域池化后生成并提取上下文扩展的感兴趣区域和原始感兴趣区域的特征。PDB将上下文扩展的感兴趣区域和感兴趣区域的特征分别输入到物体分类分支和回归分支,以预测分类与回归,得到最终检测结果。
2.2.1. 自适应上下文扩展(ACE)
众所周知,小物体需要额外的信息来辅助检测。FPN将小尺度感兴趣区域(RoI)分配到更高分辨率层级,以增加详细的RoI特征。假设一个感兴趣区域在输入图像上的宽度为w,高度为h;该感兴趣区域的层级k由其面积大小S决定:
$$
S = w h
$$
$$
k = \left\lfloor k_0 + \log_2(\sqrt{S}/S_0) \right\rfloor
$$
同样,在ACE中,嵌入了额外的上下文特征,以增加小尺度感兴趣区域(RoI)的周围信息。我们定义了两个上下文扩展准则,用于指导每个感兴趣区域(RoI)的上下文区域扩展比率的计算。
垂直扩展准则利用金字塔网络的层次结构来计算垂直上下文扩展比率Rv:
$$
R_v = \alpha k
$$
其中 α表示垂直上下文放大系数。由于感兴趣区域的上下文扩展与RoI的层级正相关, α始终为正值。
在图 3中,较小的 RoIb和较大的 RoIc属于不同的金字塔层级,因此它们的 Rv明显不同,即RoIb对应的值较大,而RoIc对应的值较小。
水平扩展准则侧重于计算相同金字塔层级上不同对象之间的精细扩展比率。尽管在同一尺度范围内的RoIs具有相同的Rv,但由于它们的尺寸各不相同,因此需求也不同。我们考虑这一因素,以提供更精确的水平上下文扩展比率Rh:
$$
R_h = \beta(\log_2(\sqrt{S}/S_0) + k_0 - k)
$$
其中 β表示水平上下文放大系数。$\log_2(\sqrt{S}/S_0) + k_0 - k$是层级向量的残差部分,取值范围为 [0, 1],,表示相同金字塔层级中RoIs之间的尺寸差异。在图 3 中,对于处于相同金字塔层级的 RoIa 和 RoId,面积越小,所需的上下文信息越多。因此,它们具有略微不同的 Rh,其中 RoIa 对应较大的值,而 RoId 对应较小的值。
最重要的是,最终的上下文扩展比率 R,其考虑了每个感兴趣区域的两个独立准则,为:
$$
R = R_v + R_h + \gamma
$$
其中 γ用于根据不同数据集的背景复杂度、对象密度等因素调整扩展比率的幅度。
接下来,基于每个感兴趣区域的中心点进行尺度放大操作 Θ,以获得上下文区域 ceRoI:
$$
ceRoI = \Theta(RoI)
$$
其中,ceRoI 的宽度为 w × R,高度为 h × R,且与原始感兴趣区域具有相同的中心。
3. 在公开数据集上的实验
我们使用三个具有挑战性的开放数据集评估了我们的方法。
Pascal VOC[24]包含20个类别的室内外物体类别。我们主要关注道路场景中六个类别的平均精度(AP)以及整个数据集的平均平均精度(mAP)。我们使用了VOC07+12数据集,该数据集包含用于训练的16551张图像和用于测试的4952张图像,以评估提出的方法。为了进一步研究每个模块结构的有效性,我们使用了VOC07数据集,该数据集包含5011张训练图像和4952张测试图像,用于消融研究。
KITTI[25]是一个大规模自动驾驶数据集。在此,我们使用其2D目标检测数据集进行评估。在实验中,我们将目标类别重新定义为两类:汽车和行人。汽车包括[厢型车、卡车、汽车、有轨电车],而行人包括[坐着的人、行人、骑自行车的人]。KITTI提供了7481张图像用于训练,7518张用于测试。由于测试集没有真实标注,我们将训练集按8:1的比例划分为训练集和验证集。
Cityscapes[26]是一个道路场景图像分割数据集。用于分割任务的像素级标注包含的小且被遮挡的标注物体比检测数据集更多,充满挑战。因此,我们将Cityscapes转换为检测数据集以进一步测试我们的模型。目标类别的定义与KITTI相同。Cityscapes检测数据集包含2842张图像。
3.1. 实现细节
我们在Pytorch深度学习框架中使用Python实现了EFPN。按照Lin等人的方法[14],我们将每张图像调整大小,使其较短边为600像素。该网络使用一块NVIDIA RTX 2080 GPU进行训练,每个小批量包含1张图像。
对于候选框提取子网络,我们采用了与FPN相同的设计和训练参数。
对于自适应并行检测子网,我们采用RoI align [27]作为感兴趣区域池化机制。我们使用了0.0001的权重衰减和0.9的动量。学习率从0.001开始,每五轮训练轮数降低为原来的十分之一。该模型共训练了10个训练轮数。
对于ACE中的参数设置,我们k0设为4,S0在公式(10)中设为224,与标准的ImageNet预训练尺寸一致。我们为不同数据集设置了公式(13)中的[α, β, γ]:VOC为[0.1, 0.01, 0.6];VOC07+12为[0.2, 0.01, 1.1];KITTI为[0.15, 0.1, 0.4];Cityscapes为[0.15, 0.1, 0.9]。
3.2. Pascal VOC上的目标检测结果
为了评估本文提出的EFPN及两种新子网络的性能,我们将它们与其他相关的目标检测算法在VOC07+12数据集上进行了比较。结果如表1所示。需要注意的是,方法(b)–(d)和(i)与所提出的EFPN在同一平台上实现并测试,而方法(e)–(h)和(j)的结果来自其对应的出版物。
| 方法 | 骨干网络 | Car | 人 | Bus | Bike | 摩托车 | 火车 | mAP |
|---|---|---|---|---|---|---|---|---|
| (a) 增强特征金字塔网络 | Res101 | 88.7 | 85.4 | 88.4 | 86.8 | 88.2 | 88.0 | 81.6 |
| (b) 具有增强的特征金字塔网络特征提取子网络 | Res101 | 88.6 | 85.4 | 86.7 | 86.6 | 89.0 | 86.4 | 81.3 |
| (c) FPN 自适应并行检测子网 | Res101 | 88.5 | 84.4 | 88.0 | 88.5 | 86.4 | 86.9 | 81.4 |
| (d) FPN | Res101 | 88.2 | 84.7 | 86.9 | 85.5 | 85.5 | 87.2 | 81.1 |
| (e) SSD 513 | Res101 | 88.1 | 83.0 | 88.2 | 87.6 | 87.5 | 87.2 | 80.6 |
| (f) DSSD 513 | Res101 | 88.7 | 83.7 | 89.0 | 86.2 | 87.5 | 85.7 | 81.5 |
| (g) R‐FCN | Res101 | 88.5 | 81.2 | 86.8 | 87.2 | 79.9 | 85.9 | 80.5 |
| (h) MR‐CNN | VGG | 85.9 | 76.4 | 88.0 | 84.1 | 85.0 | 85.0 | 78.2 |
| (i) Faster R‐CNN | Res101 | 85.3 | 75.4 | 85.1 | 80.7 | 80.9 | 85.3 | 76.4 |
| (j) ION | VGG | 85.1 | 74.4 | 85.4 | 83.1 | 82.2 | 84.2 | 75.6 |
与基线(d)相比,控制实验(b)和(c)分别替换了原始FPN模型的一部分,验证了所提出的增强特征提取子网和自适应并行检测子网的有效性。由于这两个子网分别通过对整个特征图应用权重分布以及对每个RoI进行特征补充来增强特征,因此它们之间不存在重叠或抑制作用。这一点由合并方法(a)相较于单一模块(b)或(c)准确率的提升得以证明。总体而言,在所有相关方法中,所提出的EFPN(a)在汽车、人和火车类别上均具有最高的mAP和最高的AP。
自适应并行检测子网集成了两个新模块ACE和PDB。我们设计了消融研究以量化这两个模块在VOC07数据集上的影响。结果如表2所示。
| 方法 | 上下文扩展 | 检测分支 | mAP |
|---|---|---|---|
| (a) 特征金字塔网络 | 0 | 共享 | 75.8 |
| (b) 带有FPN的 | 0.1 | PDB | 76.3 |
| (c) 带有FPN的 | 0.3 | PDB | 76.3 |
| (d) 带有FPN的 | 0.5 | PDB | 75.8 |
| (e) 带有FPN的 | 0.7 | PDB | 76.2 |
| (f) FPN 带有 | 0.5 | 合并 | 76.2 |
| (j) FPN 带有 | ACE | 合并 | 75.5 |
| (h) FPN 带有 | ACE | 拼接 | 76.1 |
| (i) FPN 带有 | ACE | PDB | 76.6 |
与基线(a)相比,(b)‐(e)中检测准确率的提升证明了向紧密贴合的感兴趣区域(RoI)添加上下文是有益的。然而,不同上下文扩展比率带来的平均精度(AP)提升差异表明,扩展范围对不同物体具有不同的影响。如果简单地为所有物体引入固定的上下文扩展比率,可能会导致无法满足不同物体的需求。在检测分支均为并行设计的情况下,我们提出的ACE(i)性能优于所有固定上下文扩展方法,证明了我们自适应策略的有效性。
我们在上下文集成网络中比较了四种检测架构。
Share在 (a) 中表示普通的目标检测网络,该网络共享分类与回归的全连接层,且无上下文嵌入。
Merge是 [10]中提出的上下文嵌入方法,其中在感兴趣区域池化后从 RoI 和 ceRoI 提取的特征成对并由一个 3 × 3卷积进行合并,之后的设计与 Share相同。我们测试了固定的上下文扩展比率为 0.5,与 [10]在 (f) 中的一致。结果表明,平均精度均值略微提升了 0.4。然而,我们发现当在 (j) 中应用自适应上下文比率时,准确率有所下降。其中一个原因可能是不一致的扩展比率导致 ceRoI 的特征表示多变,因此难以训练出一个卷积核来合并各种特征对。
Concat在 (h) 中复现了 [20] 中提出的上下文嵌入设计。它将每个 ceRoI 输入到不同的全连接层中进行特征生成,然后将特征进行拼接。其余设计与 Share 相同。由于我们主要关注检测分支的设计,并为了在光照参数上与其他方法进行公平对比,我们在实验中将一个上下文扩展比率为 0.5 的 ceRoI 与原始 RoI 进行拼接。在所有架构中,Concat 参数最多,但平均精度均值仅提升了 0.3。我们认为,这种设计难以充分利用少量特征的融合优势。
与流行的分类与回归共享参数的设计不同,PDB (i) 在传统上下文嵌入检测分支范式上提供了精度提升。并行分支可以被训练以有意识地增强其特定任务的信息整合能力。此外,与ACE协同工作时,PDB能够最大化上下文特征的利用,在可接受的计算量增加范围内使检测性能提升0.8个点。
3.3. KITTI上的目标检测结果
我们在自动驾驶场景数据集KITTI上评估了模型性能,如表3所示。
| 方法 | 测试于 | Car | 行人 | mAP |
|---|---|---|---|---|
| (a) FPN@0.5 | KITTI | 90.3 | 78.3 | 84.3 |
| (b) EFPN@0.5 | KITTI | 90.4 | 81.0 | 85.7 |
| (c) FPN@0.75 | KITTI | 73.6 | 33.4 | 53.5 |
| (d) EFPN@0.75 | KITTI | 74.0 | 35.8 | 54.9 |
(a) 和 (b) 展示了 FPN 和 EFPN 的结果,两者均在 KITTI 数据集上以 0.5 交并比阈值进行测试和训练。EFPN 的平均精度均值比基线FPN高出1.4个百分点。此外,包含更多小尺寸物体的行人类别平均精度提高了2.7个百分点。
对比(c)和(d)可以看出,当交并比阈值为0.75时,EFPN的性能也提升了1.4个百分点。我们推测定位精度的提升可能是由所提出的PDB引起的。并行设计使得每个全连接层能够专注于自身的任务。高交并比阈值下的平均精度提升意味着高质量检测的增加,表明所提出的EFPN非常适合自动驾驶等高安全性应用。图4展示了在KITTI上的若干检测示例。我们可以看到,EFPN生成了更精确的检测框,并检测到了更多小尺寸和遮挡目标。
3.4. Cityscapes上的目标检测结果
为了验证EFPN的模型泛化能力,我们在KITTI上训练模型并在Cityscapes上进行测试。结果如表4所示。
| 方法 | 测试于 | Car | 行人 | mAP |
|---|---|---|---|---|
| (a) FPN@0.5 | Cityscapes | 38.5 | 19.9 | 29.2 |
| (b) EFPN@0.5 | Cityscapes | 38.9 | 21.4 | 30.1 |
EFPN在汽车、行人和平均精度均值的平均精度上分别比基线高出0.4、1.5和0.9个百分点。图5展示了在Cityscapes上的一些检测示例,其中所提出的EFPN检测到了更多的小物体和遮挡目标。在一定程度上,EFPN可以扩展到其他环境并保持其准确率提升。
与KITTI的测试结果相比,Cityscapes的整体APs较低,原因有以下几点。其一是Cityscapes中 小物体 和 遮挡目标 的比例大幅增加,且部分 像素级小目标 在多次 下采样 后消失。此外,这也可能是由于Cityscapes与KITTI在 图像质量、光照条件 和 交通环境复杂度 方面存在较大差异所致。
4. 在自动驾驶系统中的应用
为了进一步测试该模型在真实自动驾驶场景中的实用性,我们将提出的EFPN安装在用于工厂内货运运输的自动驾驶小车上。测试表明,EFPN能够有效为自动驾驶汽车提供周围物体信息。
EFPN在自动驾驶小车的感知模块中工作。感知模块首先将双目视觉相机获取的数据输入EFPN进行目标检测,然后利用激光雷达信息对结果进行验证。随后,当前帧的所有目标信息被打包成ROS消息并发送至决策模块,用于进一步的路径规划和车辆控制。更广泛地,EFPN支持自动驾驶小车中的多种功能,如避障、轨迹跟踪和自动泊车。
在自动驾驶汽车中,目标检测算法最关键的三个指标是准确率、实时性和视觉范围。
为满足生产需求,确保准确率,自动驾驶小车需要全天候工作,包括白天、夜间以及雨雪等极端天气。此外,工厂内存在大量特种工程车辆,其外观与普通汽车有显著差异。同时,路边停放紧密的定制车辆常被视为重叠目标。上述挑战增加了检测难度,对目标检测算法的准确率提出了更高要求。所提出的深度学习模型EFPN能够有效应对复杂目标的鲁棒检测。为了更好地适应工厂场景,我们基于Pascal VOC、KITTI以及工厂中出现的特种车辆构建了一个工厂目标检测数据集。同时,我们定义了一个新的目标类别cone,以支持进一步的交通控制和停车管理。总体而言,该工厂数据集包含21392张图像,涵盖四个类别,分别为car、person、cone和bicycle。我们在该工厂数据集上采用与KITTI相同设置训练EFPN。
在实时性方面,EFPN 与 10 Hz 的车辆控制器协同工作,最高可达 16 帧每秒,充分保障了自动驾驶汽车的安全。
关于视觉范围,由于工厂内的限制条件,自主小车的行驶速度低于10 km/h,最大制动距离小于0.5米,因此目标检测系统需要达到15米的可视化需求。所提出的EFPN在白天对80米内、夜间对50米内的小目标检测能力,能够很好地满足车辆在安全距离内的响应需求。
图6展示了EFPN在一些复杂场景下的实时检测结果。截至目前,自动驾驶小车已在工厂运行了数月,EFPN的实际适用性得到了有效验证。
5. 结论
本文提出了一种基于FPN的特征增强更新方法EFPN。通过加权每个金字塔层级中的特征并自适应地利用目标的上下文信息,EFPN增强了特征表达能力,进一步提升了目标检测精度。实验表明,EFPN在开放数据集上的准确率优于FPN。EFPN在自动驾驶小车上的应用证明其能够满足多种场景下的精度、效率和可见性需求。
1366

被折叠的 条评论
为什么被折叠?



