EfficientDet : Scalable and Dfficient Object Detection阅读记录

最新推荐文章于 2025-02-21 21:44:03 发布

原创最新推荐文章于 2025-02-21 21:44:03 发布 · 232 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #计算机视觉 #深度学习

本文详细介绍了EfficientDet的BiFPN结构，包括问题定义、跨尺度连接和加权特征融合。BiFPN通过双向连接和权重融合提升特征融合效果，同时减少了额外参数。EfficientDet架构结合了高效主干网络和BiFPN，实现了不同规模的模型以适应不同计算资源。实验表明，这种方法在性能和效率之间取得了平衡。

EfficientDet : Scalable and Dfficient Object Detection阅读记录

论文地址
 论文代码

这里写目录标题

EfficientDet : Scalable and Dfficient Object Detection阅读记录

3.BiFPN

3.1Problem Formulation

作者首先介绍了什么时特征融合，通过某种融合方法，将特征提取网络提取到不同深度的特征相融合，最后输出新的特征。
请添加图片描述
然后作者用传统的FPN为例，介绍FPN特征融合的过程。
在这里插入图片描述
对于特征提取网络来说，随着网络深度的增加，输出特征的分辨率会降低。例如：输入图片的分辨率为640x640,那么P3层输出特征的分辨率就是80x80（ $640/2^3=80$ ）;P7层输出的特征的分辨率就是5x5( $640/2^7=5$ )

也就是说特征提取网络提取到的不同层的特征的尺寸是不同的。

传统同的FPN的融合方式可以表示为：
在这里插入图片描述

其中 $P_i^{out}$ 为图(a)中右侧箭头的输出特征； $P_i^{in}$ 为左侧白色圆圈所表示的输入特征。Resize方法是为了特征分辨率匹配而做的上采样或下采样操作。Conv是特征融合操作。

3.2 Cross-Scale Connections

作者又介绍了两种特征融合的方式：PANet和NAS-FPN。
PANet
PANet考虑到FPN只有自顶向下的特征融合可能会导致特征融合不够充分，又增加了自底向上的连接。这样的操作会提升网络的特征融合能力，但是增加了更多的参数。

在这里插入图片描述
NAS-FPN是通过学习的方式建立节点的连接。这将需要更多的计算资源，而且训练输出的网络是不规则的。

作者也做了实验，测试各个融合网络的性能。结果如下表：
测试融合网络

作者结合总结上述特征融合方法的优缺点，提出了双向特征金字塔网络(BiFPN)。网络结构如下：
BiFPN
该网络有下列几点改进：

删除了只有一条边连接的节点；
如果原始输入节点与输出节点处于同一层，就在它们之间增加一条额外的边，以便融合更多的特征；
处理每个双向(自顶向下和自下而上)路径作为一个特征网络层，并多次重复同一层，以实现更高级的特征融合。

3.3 Weighted Feature Fusion

当融合不同分辨率的特征时，一个常见的方法是首先将它们调整为相同的分辨率，然后将它们相加。之前的所有方法都一视同仁地对待所有输入特征。然而,由于不同的输入特征在不同的分辨率，它们通常对输出特征的贡献是不平等的。所以给每一个输入添加权重是有必要的。作者对比了三种不同的添加权重的方法，发现快速标准化融合(Fast normalized fusion)的方法效果最好。
融合方式
作者采用双向跨尺度连接与快速标准化融合加权计算相结合的方法实现最终的BiFPN。例如，我们可以使用如下方式计算第6层的输出：
P6计算方法
其中 $P_6^{td}$ 是中间特征， $P_6^{out}$ 是第6层的输出， $\omega_i$ 和 $\omega_i'$ 是各个输入所对应的权重。