DEIM学习笔记(部分摘抄)

说明

仅做个人学习使用,非全文翻译。

创新点

  • 提出了一种新颖而直接的方法,称为密集一对一(密集O2O)匹配。使用经典技术,如马赛克[1]和混合[38]增强,生成额外的正样本。
  • 提出了匹配感知损失(Matchability-Aware Loss, MAL)。MAL通过将匹配查询和具有分类置信度的目标之间的借据结合起来,根据可匹配性来调整惩罚。

摘抄

1.引言

  • 我们提出了一种新颖而直接的方法,称为密集一对一(密集O2O)匹配。我们的关键思想是增加每个训练图像中的目标数量,这反过来在训练过程中产生更多的正样本。值得注意的是,这可以很容易地使用经典技术,如马赛克[1]和混合[38]增强,在保持一对一匹配框架的同时,每个图像生成额外的正样本。
  • 当使用密集O2O时,这个问题变得更加明显。随着目标数量的增加,突出目标和不突出目标之间的差距越来越大,导致匹配数量整体增加的情况下,低质量的匹配也会增加。
  • 为了解决低质量匹配并进一步改善密集O2O,我们提出了匹配感知损失(Matchability-Aware Loss, MAL)。

3.方法

  • Focal loss。
    在这里插入图片描述

其中y∈{0,1}指定ground-truth类,p∈[0,1]表示前景类的预测概率。参数γ控制简单和硬样本之间的平衡,而α调节前景和背景类之间的权重。在FL中,只考虑样本的类别和置信度,而不考虑边界盒的质量,即局部化。

  • 如图3a所示,O2O在每张图像10个正匹配下会产生一个尖峰,而O2M则会产生一个更广泛的分布,有更多的正匹配,有时单张图像会超过80个正样本。图3b进一步强调,在极端情况下,SimOTA产生的配对数量大约是O2O的10倍。这表明O2O的积极匹配较少,可能会减慢优化速度。
    密集O2O实现了与O2M相当的监管水平,但没有增加复杂性和计算开销。在这里插入图片描述

  • VFL的局限性
    在这里插入图片描述
    其中q为预测边界框与其目标框之间的IoU。对于前景样本(q > 0),目标标签设置为q,而背景样本(q = 0)的目标标签设置为0。VFL包含IoU,以提高DETR[43]中的查询质量。
    然而,VFL在优化低质量匹配时有两个关键限制:
    1)低质量匹配。VFL主要侧重于高质量匹配(高IoU)。对于低质量的匹配(低IoU),损失仍然很小,这使得模型无法对低质量的盒子进行优化预测。然而,对于低质量匹配(具有低IoU,例如,图2d),损失仍然很小(在图2e中由一个-标记)。
    2)负样本。VFL将没有重叠的匹配视为负样本,减少了正样本的数量,限制了有效的训练。

  • 匹配感知损失(MAL)
    在这里插入图片描述
    与VFL相比,我们引入了几个小而重要的变化。具体来说,目标标签从q修改为qγ,简化了正样本和负样本的损失权重,并删除了用于平衡正样本和负样本的超参数α。这一改变有助于避免对高质量盒子的过度强调,并改善整体训练过程。从VFL(图2e)和MAL(图2f)之间的损失情况可以很容易地看出这一点。请注意,γ的影响在4.5节中提供。

  • 与VFL的比较。
    我们比较MAL和VFL在处理低质量和高质量匹配方面的效果。在低质量匹配的情况下(图4a中的IoU = 0.05),与VFL相比,随着预测置信度的增加,MAL显示损失的急剧增加,而VFL几乎保持不变。对于高质量的比赛(图4b中的IoU = 0.95), MAL和VFL的表现相似,证实了MAL在不影响高质量比赛表现的情况下提高了训练效率。
    在这里插入图片描述

实验

(需要全部详读)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值