DEIM学习笔记（部分摘抄）

smile_yolk

已于 2025-03-20 10:39:07 修改

阅读量1.3k

点赞数 43

文章标签：学习笔记

于 2025-03-19 11:08:19 首次发布

本文链接：https://blog.youkuaiyun.com/smile_yolk/article/details/146335213

版权

说明

仅做个人学习使用，非全文翻译。

创新点

提出了一种新颖而直接的方法，称为密集一对一(密集O2O)匹配。使用经典技术，如马赛克[1]和混合[38]增强，生成额外的正样本。
提出了匹配感知损失(Matchability-Aware Loss, MAL)。MAL通过将匹配查询和具有分类置信度的目标之间的借据结合起来，根据可匹配性来调整惩罚。

摘抄

1.引言

我们提出了一种新颖而直接的方法，称为密集一对一(密集O2O)匹配。我们的关键思想是增加每个训练图像中的目标数量，这反过来在训练过程中产生更多的正样本。值得注意的是，这可以很容易地使用经典技术，如马赛克[1]和混合[38]增强，在保持一对一匹配框架的同时，每个图像生成额外的正样本。
当使用密集O2O时，这个问题变得更加明显。随着目标数量的增加，突出目标和不突出目标之间的差距越来越大，导致匹配数量整体增加的情况下，低质量的匹配也会增加。
为了解决低质量匹配并进一步改善密集O2O，我们提出了匹配感知损失(Matchability-Aware Loss, MAL)。

3.方法

Focal loss。

其中y∈{0,1}指定ground-truth类，p∈[0,1]表示前景类的预测概率。参数γ控制简单和硬样本之间的平衡，而α调节前景和背景类之间的权重。在FL中，只考虑样本的类别和置信度，而不考虑边界盒的质量，即局部化。

如图3a所示，O2O在每张图像10个正匹配下会产生一个尖峰，而O2M则会产生一个更广泛的分布，有更多的正匹配，有时单张图像会超过80个正样本。图3b进一步强调，在极端情况下，SimOTA产生的配对数量大约是O2O的10倍。这表明O2O的积极匹配较少，可能会减慢优化速度。
密集O2O实现了与O2M相当的监管水平，但没有增加复杂性和计算开销。
VFL的局限性

其中q为预测边界框与其目标框之间的IoU。对于前景样本(q > 0)，目标标签设置为q，而背景样本(q = 0)的目标标签设置为0。VFL包含IoU，以提高DETR[43]中的查询质量。
然而，VFL在优化低质量匹配时有两个关键限制:
1)低质量匹配。VFL主要侧重于高质量匹配(高IoU)。对于低质量的匹配(低IoU)，损失仍然很小，这使得模型无法对低质量的盒子进行优化预测。然而，对于低质量匹配(具有低IoU，例如，图2d)，损失仍然很小(在图2e中由一个-标记)。
2)负样本。VFL将没有重叠的匹配视为负样本，减少了正样本的数量，限制了有效的训练。
匹配感知损失（MAL）

与VFL相比，我们引入了几个小而重要的变化。具体来说，目标标签从q修改为qγ，简化了正样本和负样本的损失权重，并删除了用于平衡正样本和负样本的超参数α。这一改变有助于避免对高质量盒子的过度强调，并改善整体训练过程。从VFL(图2e)和MAL(图2f)之间的损失情况可以很容易地看出这一点。请注意，γ的影响在4.5节中提供。
与VFL的比较。
我们比较MAL和VFL在处理低质量和高质量匹配方面的效果。在低质量匹配的情况下(图4a中的IoU = 0.05)，与VFL相比，随着预测置信度的增加，MAL显示损失的急剧增加，而VFL几乎保持不变。对于高质量的比赛(图4b中的IoU = 0.95)， MAL和VFL的表现相似，证实了MAL在不影响高质量比赛表现的情况下提高了训练效率。

实验

（需要全部详读）