说明
仅做个人学习使用,非全文翻译。
创新点
- 提出了一种新颖而直接的方法,称为密集一对一(密集O2O)匹配。使用经典技术,如马赛克[1]和混合[38]增强,生成额外的正样本。
- 提出了匹配感知损失(Matchability-Aware Loss, MAL)。MAL通过将匹配查询和具有分类置信度的目标之间的借据结合起来,根据可匹配性来调整惩罚。
摘抄
1.引言
- 我们提出了一种新颖而直接的方法,称为密集一对一(密集O2O)匹配。我们的关键思想是增加每个训练图像中的目标数量,这反过来在训练过程中产生更多的正样本。值得注意的是,这可以很容易地使用经典技术,如马赛克[1]和混合[38]增强,在保持一对一匹配框架的同时,每个图像生成额外的正样本。
- 当使用密集O2O时,这个问题变得更加明显。随着目标数量的增加,突出目标和不突出目标之间的差距越来越大,导致匹配数量整体增加的情况下,低质量的匹配也会增加。
- 为了解决低质量匹配并进一步改善密集O2O,我们提出了匹配感知损失(Matchability-Aware Loss, MAL)。
3.方法
- Focal loss。
其中y∈{0,1}指定ground-truth类,p∈[0,1]表示前景类的预测概率。参数γ控制简单和硬样本之间的平衡,而α调节前景和背景类之间的权重。在FL中,只考虑样本的类别和置信度,而不考虑边界盒的质量,即局部化。
-
如图3a所示,O2O在每张图像10个正匹配下会产生一个尖峰,而O2M则会产生一个更广泛的分布,有更多的正匹配,有时单张图像会超过80个正样本。图3b进一步强调,在极端情况下,SimOTA产生的配对数量大约是O2O的10倍。这表明O2O的积极匹配较少,可能会减慢优化速度。
密集O2O实现了与O2M相当的监管水平,但没有增加复杂性和计算开销。 -
VFL的局限性
其中q为预测边界框与其目标框之间的IoU。对于前景样本(q > 0),目标标签设置为q,而背景样本(q = 0)的目标标签设置为0。VFL包含IoU,以提高DETR[43]中的查询质量。
然而,VFL在优化低质量匹配时有两个关键限制:
1)低质量匹配。VFL主要侧重于高质量匹配(高IoU)。对于低质量的匹配(低IoU),损失仍然很小,这使得模型无法对低质量的盒子进行优化预测。然而,对于低质量匹配(具有低IoU,例如,图2d),损失仍然很小(在图2e中由一个-标记)。
2)负样本。VFL将没有重叠的匹配视为负样本,减少了正样本的数量,限制了有效的训练。 -
匹配感知损失(MAL)
与VFL相比,我们引入了几个小而重要的变化。具体来说,目标标签从q修改为qγ,简化了正样本和负样本的损失权重,并删除了用于平衡正样本和负样本的超参数α。这一改变有助于避免对高质量盒子的过度强调,并改善整体训练过程。从VFL(图2e)和MAL(图2f)之间的损失情况可以很容易地看出这一点。请注意,γ的影响在4.5节中提供。 -
与VFL的比较。
我们比较MAL和VFL在处理低质量和高质量匹配方面的效果。在低质量匹配的情况下(图4a中的IoU = 0.05),与VFL相比,随着预测置信度的增加,MAL显示损失的急剧增加,而VFL几乎保持不变。对于高质量的比赛(图4b中的IoU = 0.95), MAL和VFL的表现相似,证实了MAL在不影响高质量比赛表现的情况下提高了训练效率。
实验
(需要全部详读)