目标检测数据集合成

原创已于 2024-10-03 14:52:40 修改 · 1.9k 阅读

23 ·

CC 4.0 BY-SA版权

文章标签：

#目标检测 #stable diffusion

于 2024-09-27 17:14:17 首次发布

部署运行你感兴趣的模型镜像

目标检测数据集合成

InstaGan

微调了一个扩散模型，但是只是文生图的扩散模型而没有用可控文生图模型去做，所以扩散模型只是用来产生图片的。关于标注，引入了一个和Grounding Dino相同的模块叫做定位头来专门进行框和类别的预测。
Diffusion微调策略：
我们采用了一种温和的策略，从图像中随机裁剪，并使用图像裁剪中的类别构建文本提示符，如图2a所示。如果图像裁剪包含同一类别的多个对象，我们只在文本提示符中使用此类别名称一次。

在这里插入图片描述

训练的Grounding head 还是一个开区间的，但是首先在固定样本上训练，然后使用蒸馏在新类上训练。
整体架构为：

在这里插入图片描述
在下游任务上训练时也是使同时使用合成数据集和真实数据集。

Data Augmentation for Object Detection via Controllable Diffusion Models

这篇文章觉得复制粘贴的方法太简单，而使用可控文生图模型需要大量框的训练，所以选择了使用先验知识来先指定位置，其实也就是一个可控问生图模型，只不过使用的布局条件不是框了而是其他的先验（布局），如HED边缘，分割图，Canny边缘，然后使用ControlNet来根据这些布局生成指定位置的图像，推理过程中使用真实数据集的标注作为新图像的标注，即具有标注好了的坐标框信息，所以就得到了坐标框和图片。
Prompt构建方式：把图像中的所有类别都用连起来，并且用逗号隔开
后过滤方法*：将得到的图像中的物体按得到的框抠出来，送到CLIP里计算相似度的得分，使用一个阈值过滤掉低信用的。
整体方法：将带有标注的图片进行数据变换如裁剪缩放得到指导图像，提取指导图像的先验知识作为布局信息放入可控文生图模型中生成，计算每个物体和类别的CLIP得分之后，使用后过滤算法选择质量好的图片。

在这里插入图片描述
可控文生图模型：这里使用的其实就是ControlNet，在训练模型的过程中冻结原有的Unet权重，只训练ControlNet部分。

实验：
在本节中，我们在COCO[24]数据集上进行了few-shot设置的实验，并在PASCAL VOC[9]和其他选定的下游数据集[16,19,40]上进行了完整数据的标准设置，以验证所提出的管道在不同领域上的有效性。

数据集： COCO和VOC
检测器： YOLOX

DiffusionEngine

这个文章有个很新奇的想法，他认为Diffusion的Unet本身就是一个极佳的目标检测Backbone，因为提取到了丰富的视觉信息，所以这篇文章直接在Diffusion后面加了一个检测适配器（其实就是一个目标检测器）用于对Diffusion生成的图像进行标注。
检测适配器：原文中说任何目标检测器都可以当检测适配器，如YOLO，RCNN，这里选用了DINO。
UNet中的最后几个块会输出不同尺度的视觉特征，所以文章直接使用这些不同尺度的特征构建特征金字塔作为特征。
在这里插入图片描述
图片：对于Diffusion来说并没有进行微调而是使用现有的Diffusion，那肯定在某些特定任务上的效果不好。
标签：与训练过程一致，我们从最后一个去噪步骤中提取特征，并将其输入到适配器中，得到生成图像的检测结果。根据检测器推断的经验实践，我们过滤掉阈值δ = 0.3的低置信度预测，其余的作为生成的注释。
多样性：通过修改种子、编码比、引导尺度和条件文本提示，我们的DE可以用标记生成的与参考图像有不同程度差异的图像来扩展参考数据集。图1中的第二行提供了使用不同编码比率进行数据扩展的示例。随着加噪阶数的增加，轻微的失真积累，导致重建图像比原始输入更加多样化。我们的DE可以很好地为不同大小的多对象任务生成标记数据，并且不局限于原始布局。
Prompt：对于每个图像都有现成的标题的数据集，我们直接使用这些标题作为图像生成的输入文本提示。对于那些没有标题的，我们使用一个通用的文本提示符，“a[域]，带有[cls-a]， [clsb]，…”在[域]。'，其中[cls-i]表示出现在每张图像中的对象名称，[domain]标签是根据数据进行整理的，例如，照片，剪贴画。

您可能感兴趣的与本文相关的镜像

Stable-Diffusion-3.5

图片生成

Stable-Diffusion

Stable Diffusion 3.5 (SD 3.5) 是由 Stability AI 推出的新一代文本到图像生成模型，相比 3.0 版本，它提升了图像质量、运行速度和硬件效率