
论文合集
文章平均质量分 94
万年枝
分享多模态方向论文和机器学习方面论文,主要涉及图像领域和文本领域,欢迎小伙伴和我交流;同时接python机器学习、数据处理、图像分类、文本生成等项目。和大家共同进步,不断深入人工智能领域!!!
展开
-
AAAI 2025: IteRPrimE: Zero-shot Referring Image Segmentation with Iterative Grad-CAM Refinement and
零样本引用图像分割(Zero-shot Referring Image Segmentation, RIS)***无需训练和微调***,即可识别与指定引用表达式最匹配的实例掩码,大大减少了劳动密集型的注释过程。尽管取得了值得称赞的结果,但以前基于clip的模型有一个关键的缺点:模型在**识别物体相对空间关系**的能力上显着降低。此外,大多数方法在处理**基本词与其上下文之间的关系**方面能力较弱,导致混淆,降低了识别正确目标区域的准确性。原创 2025-03-11 11:43:31 · 795 阅读 · 0 评论 -
ICCV2023:Weakly Supervised Referring Image Segmentation with Intra-Chunk and Inter-Chunk Consistency
参考图像分割的目的是通过自然语言表达来定位图像中的对象。以往的研究大多是利用包含分割标签的大规模数据集来学习参考图像分割,但成本较高。我们提出了一种弱监督学习方法用于参考图像分割,该方法仅使用现成的图像-文本对。我们首先训练一个图像-文本匹配的视觉语言学模型,并通过Grad-CAM提取视觉显著性图来识别每个单词对应的图像区域。然而,我们发现了Grad-CAM的两个主要问题。原创 2024-05-09 10:54:21 · 924 阅读 · 0 评论 -
RefCLIP 和 ReCLIP(for REC)
这篇论文介绍了ReCLIP,这是一个用于指代表达理解(Referring Expression Comprehension,简称ReC)任务的强零样本基线方法。ReCLIP的核心思想是利用CLIP(一种先进的大规模预训练模型),通过零样本学习(zero-shot learning)的方式,来解决ReC任务,而不需要针对特定视觉领域的额外训练数据。原创 2024-03-26 11:13:37 · 1465 阅读 · 0 评论 -
ICCV2023:FLatten Transformer: Vision Transformer using Focused Linear Attention
self-attention 的二次计算复杂度一直是将Transform模型应用于视觉任务时面临的一个持续挑战。另一方面,线性注意力通过精心设计的映射函数逼近Softmax操作,以其线性复杂性提供了一种更有效的替代方案。然而,当前的线性注意力方法要么遭受显着的性能下降,要么引入了映射函数的额外计算开销。在本文中,我们提出了一种新颖的聚焦线性注意力模块,以实现高效率和表现力。具体而言,我们首先从两个视角分析了导致线性注意力性能下降的因素:聚焦能力和特征多样性。为了克服这些限制,我们引入了一个简单而有效的映射函原创 2024-03-01 15:48:33 · 1677 阅读 · 0 评论 -
ICCV2023:A Dynamic Dual-Processing Object Detection Framework Inspired by the Brain‘s Recognition Me
目标检测的两种方法:CNN-based 和 Transformer-based, 前者将该任务视为 a dense local matching problem, and the latter sees it as s sparse global retrieval problem.Research in neuroscience has shown that the recognition decision in the brain is based on two processes, namely f原创 2024-03-01 11:17:08 · 942 阅读 · 0 评论 -
CVPR2023|Learning Instance-Level Representation for Large-Scale Multi-Modal Pretraining in Ecommerce
本文旨在建立一个通用的多模态基础模型,该模型具有可扩展的电子商务中大规模下游应用的能力。近年来,大规模视觉语言预训练方法在通用领域取得了显著进展。然而,由于自然图像和产品图像之间的显着差异,将这些框架直接应用于电子商务的图像级表示建模将不可避免地次优。为此,我们在这项工作中提出了一种以实例为中心的多模态预训练范式,称为ECLIP。具体来说,我们设计了一个解码器架构,该架构引入了一组可学习的实例查询,以显式聚合实例级语义。原创 2024-01-25 13:49:36 · 865 阅读 · 0 评论 -
音乐数据集+大模型相关(一)
下图来自 llark论文。对于音频领域,Mubert和Riffusion是近期热门的两个文本到音乐的生成模型。Mubert是一个文本到音乐的演示界面,能够根据输入的文本生成高质量的音频音乐。不过由于所有的声音都是由音乐家和声音设计师事先创造的,因此Mubert更像是在生成声音的组合,而不是音乐。Riffusion使用与Stable Diffusion相同的模型,从文本中生成频谱图,然后将其转换为音频片段。原创 2024-01-24 16:10:49 · 3547 阅读 · 1 评论 -
CVPR 2023|FreeSeg: Unified, Universal and Open-Vocabulary Image Segmentation
最近出现了开放词汇学习来完成任意类别的基于文本的描述的分割,这将分割系统推广到更通用的应用场景。然而,现有的方法致力于为特定的分割任务设计专门的架构或参数。这些定制的设计范式导致各种分割任务之间的碎片化,从而阻碍了分割模型的统一性。因此,在本文中,我们提出了FreeSeg,这是一个通用框架来完成统一、通用和开放词汇的图像分割。FreeSeg通过一次性训练优化了一个一体化网络,并采用相同的架构和参数在推理过程中无缝处理不同的分割任务。原创 2024-01-23 20:07:35 · 1174 阅读 · 0 评论 -
CVPR 2023 Universal Instance Perception as Object Discovery and Retrieval
所有的实例感知任务都旨在寻找由类别名称、语言表达式和目标注释等查询指定的某些对象,但是这个完整的字段被分成了多个独立的子任务。在这项工作中,我们提出了下一代的通用实例感知模型,称为UNINEXT。UNINEXT将不同的实例感知任务重新制定为统一的对象发现和检索范式,并且可以通过简单地改变输入提示来灵活地感知不同类型的对象。这种统一的公式带来了以下好处:(1)来自不同任务和标签词汇表的大量数据可以被利用来联合训练通用实例级表示,这对于缺乏训练数据的任务特别有益。原创 2024-01-23 17:04:27 · 1167 阅读 · 0 评论 -
ICLR2023: What do vision transformers learn? A visual exploration
视觉转换器 (ViT) 正迅速成为计算机视觉事实上的架构,但我们对它们的工作原理和学习内容知之甚少。虽然现有的研究直观地分析了卷积神经网络的机制,但对ViT的类似探索仍然具有挑战性。在本文中,我们首先解决了在ViT上执行可视化的障碍。在这些解决方案的帮助下,我们观察到使用语言模型监督(例如,CLIP)训练的ViT中的神经元是由语义概念而不是视觉特征激活的。我们还探索了ViT和CNN之间的潜在差异,我们发现transformer检测图像背景特征,就像它们的卷积对应物一样,但它们的预测对高频信息的依赖要小得多。原创 2023-12-28 12:39:01 · 1141 阅读 · 0 评论 -
One Wide Feedforward is All You Need -- working
transformer网络结构下,为减少参数量和计算量,如何优化FFN呢?原创 2023-10-31 15:14:14 · 204 阅读 · 0 评论