
论文翻译与阅读
文章平均质量分 95
薛铁钢
这个作者很懒,什么都没留下…
展开
-
论文翻译《ReCo: Region-Controlled Text-to-Image Generation》
最近,大规模文本到图像(T2I)模型展现出了令人印象深刻的性能,在生成高保真图像方面表现出色,但其可控性有限,例如,精确指定特定区域的内容,通过自由形式的文本描述。在本文中,我们提出了一种有效的技术,用于T2I生成中的区域控制。我们通过额外添加一组位置标记来增强T2I模型的输入,这些标记代表了量化的空间坐标。每个区域由四个位置标记来指定,分别表示左上角和右下角,然后是一个开放式的自然语言区域描述。然后,我们使用这种新的输入界面对预训练的T2I模型进行微调。翻译 2024-06-17 22:29:45 · 455 阅读 · 0 评论 -
论文阅读《LayoutDiffusion: Controllable Diffusion Model for Layout-to-image Generation》
本文提出了一种用于布局到图像生成的扩散模型LayoutDiffusion;将图像的每个块作为一个特殊的对象,以统一的形式完成布局和图像的困难多模态融合;提出了布局融合模块(LFM)、对象感知交叉注意机制(OaCA)。布局图实际上是一系列物体在图片上的布局信息,一个布局序列中的每个对象o都对应着图片中的一个物体,每个对象由2D边界框和该物体的类别标签组成。原创 2024-05-21 20:12:50 · 2223 阅读 · 0 评论 -
论文翻译《LayoutDiffusion: Controllable Diffusion Model for Layout-to-image Generation》
最近,扩散模型在图像合成方面取得了巨大成功。然而,在布局到图像的生成过程中,图像往往是由多个物体组成的复杂场景,如何对全局布局图和每个细节物体进行强有力的控制仍然是一项具有挑战性的任务。在本文中,我们提出了一种名为 “布局扩散”(LayoutDiffusion)的扩散模型,与之前的研究相比,它能获得更高的生成质量和更强的可控性。为了克服图像翻译 2024-05-21 19:26:55 · 950 阅读 · 0 评论 -
论文阅读《Toward Multimodal Image-to-Image Translation》
将真实图像编码到隐空间中,使用编码器将真实图像进行潜在编码,再将编码后的随机噪声和输入图像进行结合生成输出。条件生成器从随机抽样的隐向量产生一个输出,当它作为输入给编码器时,编码返回与随机抽样相同的隐向量。将上述两种方法结合起来,构成双向映射的结构对于PixPixGAN而言,生成器更多地依赖于输入图像的具体内容而非随机噪声来重建输出。因此,即使添加了噪声,只要输入图像信息足够丰富,生成的输出仍然会依照输入的结构和特征进行构建。与传统的pix2pix模型不同,BicycleGAN在生成过程中引入了隐变量。原创 2024-05-17 15:52:14 · 1194 阅读 · 1 评论 -
论文翻译《Toward Multimodal Image-to-Image Translation》
许多图像到图像的转换问题是模糊的,因为单个输入图像可能对应多个可能的输出。在这项工作中,我们的目标是在条件生成建模设置中对可能输出的分布进行建模。映射的模糊性被提取到一个低维的隐向量中,该隐向量可以在测试时随机采样。生成器学习将给定的输入与隐代码相结合,映射到输出。我们明确地鼓励输出和隐代码之间的连接是可逆的。这有助于防止在训练期间从隐代码到输出的多对一映射,也称为模式崩溃问题,并产生更多样化的结果。我们通过使用不同的训练目标、网络架构和注入隐代码的方法来探索这种方法的几种变体。翻译 2024-05-10 21:10:13 · 140 阅读 · 0 评论 -
论文阅读《Semantic Prompt for Few-Shot Image Recognition》
本文提出了一种新颖的语义提示方法,利用类名的文本信息作为语义提示,自适应地调整特征提取网络,使得图像编码器只关注和语义提示相关的视觉特征,忽略其他干扰信息。本文主要提出了一个语义提示SP模块和模块中两种互补的信息交互机制:1、SP模块:可以插入到特征提取器的任何层中,包含空间和通道交互部分。2、空间交互机制:将语义提示特征和图像块特征串联在一起,然后送入Transformer层中,通过自注意力层,语义提示可以和每个图像块特征进行信息交互从而使模型关注类别相关的图像区域。原创 2024-04-07 21:40:35 · 1257 阅读 · 1 评论 -
论文翻译《Sylph: A Hypernetwork Framework for Incremental Few-shot Object Detection》
我们研究的是具有挑战性的增量小样本目标检测(iFSD)。最近,在连续和无微调 iFSD 的背景下研究了基于超网络的方法,但成效有限。我们对此类方法的重要设计选择进行了仔细研究,并进行了几项关键改进,最终形成了一个更精确、更灵活的框架,我们称之为 Sylph。特别是,我们在大规模数据集上利用预先训练好的无类别的定位基础检测器,证明了将物体分类与定位解耦的有效性。翻译 2024-01-24 16:01:27 · 385 阅读 · 1 评论 -
论文翻译《Semantic Prompt for Few-Shot Image Recognition》
小样本学习是一个具有挑战性的问题,因为只有很少的例子可以识别一个新的类。最近的一些研究利用额外的语义信息,例如类名的文本嵌入,通过结合语义原型和视觉原型来解决稀少样本的问题。然而,这些方法仍然会受到从稀少的支持样本中学习到的虚假视觉特征的影响,从而导致有限的性能增益。在本文中,我们提出了一种新颖的面向小样本学习的语义提示方法翻译 2024-03-09 14:09:32 · 324 阅读 · 0 评论 -
论文阅读《Sylph: A Hypernetwork Framework for Incremental Few-shot Object Detection》
针对增量小样本学习问题,探索一种可以快速从小样本中学习新类别,又不会忘记以前见过的类别的模型Sylph,且不需要对模型参数进行任何额外的优化。面对新类别会直接训练,不用联合训练(连带着基类和已经学习到的新类别一起训练)在基础训练的时候训练出一个和类别无关的回归器,在适应新类别时,只需要用这个回归器进行定位操作就可以了;因此只需要考虑小样本分类问题,只关注分类器的参数;训练新类别时,生成一组新的分类器参数(新类类代码),再通过元测试阶段将新类类代码和基类类代码合成在一起。原创 2024-02-22 18:10:41 · 1801 阅读 · 2 评论 -
论文阅读《Integrative Few-Shot Learning for Classification and Segmentation》
小样本分类问题:FS-C,总是事先假定查询图像中包含且只包含一个目标类,这个目标类属于支持类中,且支持集中的各个类之间不能存在包含关系,如{苹果,橘子,水果,桌子,椅子,家具}这种类别设置是不允许的。小样本图像分割问题:FS-S,当查询图像中不包含目标类别时,会选择分割出图像中最显著的部分。原创 2023-03-20 13:42:45 · 539 阅读 · 1 评论 -
论文翻译《Integrative Few-Shot Learning for Classification and Segmentation》
我们介绍了小样本分类和分割(FS-CS)的集成任务,目的是在目标类给出的例子很少的情况下,对查询图像中的目标对象进行分类和分割。该任务结合了两个传统的小样本学习问题,小样本分类和分割。FS-CS将它们推广到具有任意图像对的更真实的任务中,其中每个目标类可能出现在查询图像中,也可能不出现在查询图像中。为了解决这一任务,我们提出了FS-CS的综合小样本学习。翻译 2023-03-14 14:44:14 · 636 阅读 · 1 评论 -
论文翻译《Cascade R-CNN: Delving into High Quality Object Detection》
在目标检测中,需要一个交并比(IoU)阈值来定义阳性和假阳性。用低IoU阈值(例如0.5)训练的目标检测器通常会产生噪声检测。但是,随着IoU阈值的增加,检测性能往往趋于下降。造成这种情况的两个主要因素是:1)训练期间的过拟合,由于正样本的指数消失;2)检测器最优的IoU与输入建议框之间的推断时间不匹配。为了解决这些问题,提出了一种多级目标检测体系结构Cascade R-CNN。它由一系列检测器组成,这些检测器经过不断增加的IoU阈值训练,从而对接近的假阳性有更强的选择性。翻译 2023-02-20 16:59:39 · 277 阅读 · 0 评论 -
论文阅读《FSCE: Few-Shot Object Detection via Contrastive Proposal Encoding》
本文提出了一种基于对比建议编码(FSCE)的小样本目标检测方法,在RoI 特征提取后添加了一个和回归、分类分支并行的建议框对比编码(CPE)分支。原创 2022-12-23 21:28:01 · 1091 阅读 · 1 评论 -
论文翻译《FSCE: Few-Shot Object Detection via Contrastive Proposal Encoding》
近些年来,人们开始对识别以前从未见过的物体产生兴趣,这种使用很少的样本进行训练的目标检测任务被称为小样本目标检测(FSOD)。最近的研究表明,良好的特征嵌入是获得良好的小样本学习性能的关键。我们观察到,具有不同的IoU分数的目标建议框议类似于对比方法中使用的图像内增强。我们利用这种类比并结合监督对比学习,在FSOD中实现更健壮的目标表示。我们提出了一些通过对比建议编码(FSCE)的小样本目标检测方法,这是一种简单而有效的来学习对比感知的对象建议编码的方法,有助于对检测到的目标进行分类。翻译 2022-12-23 21:20:07 · 654 阅读 · 0 评论 -
论文阅读《Dense Relation Distillation with Context-aware Aggregation for Few-Shot Object Detection》
在以往的小样本目标检测工作中,支持特征和查询特征之间的关系没有得到充分的发掘和利用,传统方法利用支持特征的全局池化生成的分类向量来调整查询特征,从整体角度指导特征学习。然而,由于外观变化或遮挡在自然图像中是常见的,当同一类对象在查询和支撑样本之间变化很大时,整体特征可能会产生误导。另外,当大部分物体由于遮挡而看不见时,局部上下文细节丢失,这时局部细节特征的检索变得非常重要,而以往的方法完全忽略了这一点。同时,小样本目标检测问题中,多尺度特征提取器存在基类和新类过拟合的问题。原创 2022-11-09 21:03:38 · 455 阅读 · 0 评论 -
论文翻译《Dense Relation Distillation with Context-aware Aggregation for Few-Shot Object Detection》
传统的基于深度学习的物体检测方法需要大量的边界框注释来进行训练,获取如此高质量的标注数据代价高昂。小样本目标检测在只有少数注释实例的情况下学习适应新的类别,这是一种非常具有挑战性的方法,因为在只有少量可用数据的情况下,新对象的细粒度特征很容易被忽略。在本文中,为了充分利用带注释的新对象的特征,获取查询对象的细粒度特征,我们提出了基于上下文感知聚合的密集关系蒸馏法(DCNet)来解决小样本目标检测的问题。翻译 2022-11-07 11:19:33 · 462 阅读 · 2 评论 -
论文阅读《Semantic Relation Reasoning for Shot-Stable Few-Shot Object Detection》
本文提出一种SRR-FSD算法,尝试在使用视觉信息的同时使用语义关系,并且将显式的关系推理引入到小样本目标检测中。原创 2022-09-22 16:11:53 · 1794 阅读 · 0 评论