
VLM论文时报
文章平均质量分 91
VLM论文时报
小小帅AIGC
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2024.12.15-2024.12.20
自监督视觉基础模型能产生强大的嵌入,在广泛的下游任务中表现出色。然而,与 CLIP 等视觉语言模型不同的是,自监督视觉特征并不容易与语言保持一致,这阻碍了它们在开放词汇任务中的应用。我们的方法被命名为 dino.txt,为 DINOv2(一种广泛使用的自监督视觉编码器)解锁了这一新功能。我们以 LiT 训练策略为基础,该策略训练文本编码器与冻结的视觉模型保持一致,但在密集任务中效果并不理想。原创 2025-05-23 10:30:00 · 742 阅读 · 0 评论 -
AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2024.12.10-2024.12.15
多模态大型语言模型(MLLMs)的最新进展表明,它在推进各种视觉语言任务方面具有前所未有的能力。然而,MLLM 面临着幻觉和与输入数据不符的误导性输出等重大挑战。虽然现有的努力都是为了消除 MLLM 的幻觉,但有几个关键的挑战仍未解决。首先,当前的方法主要集中于解决感知层面的错误,而另一种重要的认知层面的错误却可能被忽视,因为这需要事实常识。此外,现有方法可能无法找到更有效的方法来表示视觉输入,而视觉输入是引发视幻觉的一个关键瓶颈。原创 2025-05-22 10:30:00 · 744 阅读 · 0 评论 -
AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2024.12.05-2024.12.10
对比学习已成为表征学习的重要框架,是 SimCLR 和 CLIP 等单模态和双模态应用的基础。为了解决批量规模依赖性大和双模性等基本限制,SogCLR 等方法利用随机优化来实现全局对比目标。受 SogCLR 效率和适应性的启发,我们引入了 AmCLR 和 xAmCLR 目标函数,专为双模视觉语言模型量身定制,以进一步增强对比学习的鲁棒性。原创 2025-05-21 10:30:00 · 808 阅读 · 0 评论 -
AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2024.12.01-2024.12.05
单模态视觉模型和语言模型的一致性如何?尽管之前的研究已经着手回答这个问题,但其评估方法并不能直接转化为这些模型在实际视觉语言任务中的应用。在本文中,我们受线性探测的启发,提出了一种直接评估方法来评估视觉与语言的一致性。我们发现 SSL 视觉模型的对齐程度取决于其 SSL 训练目标,而且我们发现 SSL 表征的聚类质量比其线性可分性对对齐性能的影响更大。原创 2025-05-20 10:30:00 · 955 阅读 · 0 评论 -
AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2024.11.25-2024.11.30
随着大型视觉语言模型(VLM)的长足发展,人们对其潜在误用和滥用的担忧也迅速增加。以前的研究已经强调了 VLM 易受越狱攻击的问题,在越狱攻击中,精心设计的输入会导致模型生成违反道德和法律标准的内容。然而,由于有害内容的过度曝光和缺乏隐蔽的恶意引导,现有的方法在与 GPT-4o 等最先进的 VLMs 的对抗中举步维艰。在这项工作中,我们提出了一种新型越狱攻击框架:多模式链接(MML)攻击。MML 从密码学中汲取灵感,利用跨文本和图像模式的加密-解密过程来减少恶意信息的过度曝光。原创 2025-05-19 10:30:00 · 1352 阅读 · 0 评论 -
AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2024.11.20-2024.11.25
之前的研究表明,嘈杂的网络抓取图像-文本对可能会限制像 CLIP 这样的视觉语言预训练,因此提出了利用合成字幕进行学习的可行替代方案。我们的工作延续了这一努力,引入了两个简单而有效的设计,以更好地利用描述丰富的合成标题。首先,通过观察合成字幕学习中强烈的反向效应–简短的合成字幕通常比完整的字幕性能高得多–我们因此只向文本编码器输入部分合成字幕。其次,我们加入了一个自回归标题器来模仿重构过程–通过对成对图像输入和网络抓取的文本描述进行调节,标题器学会了预测由高级 MLLM 生成的全长合成标题。原创 2025-05-16 10:30:00 · 913 阅读 · 0 评论 -
AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2024.11.15-2024.11.20
通用视觉语言模型(VLM)在计算机视觉领域取得了长足进步,但在医疗保健等专业领域却显得力不从心,因为在这些领域,专家知识至关重要。在传统的计算机视觉任务中,创造性的或近似的答案可能是可以接受的,但在医疗保健领域,精确性是最重要的。目前的大型多模态模型,如 Gemini 和 GPT-4o 等,由于依赖于记忆的互联网知识,而不是医疗保健领域所需的细致入微的专业知识,因此不足以胜任医疗任务。VLM 的训练通常分为三个阶段:视觉预训练、视觉语言预训练和指令微调(IFT)。原创 2025-05-16 10:30:00 · 978 阅读 · 0 评论 -
AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2024.11.10-2024.11.15
本文摘要涵盖了七篇关于多模态模型和视觉语言模型的研究论文,主要聚焦于模型在视觉理解、生成和一致性方面的改进。第一篇论文提出了一种自监督多模态框架,用于预测中风风险,通过整合脑成像和临床数据,显著提高了预测准确性。第二篇论文引入了一种多尺度对齐方法,增强了多模态大语言模型在细粒度视觉理解中的表现。第三篇论文探讨了多模态大语言模型的跨模态一致性,揭示了视觉和语言模态之间的不一致性。第四篇论文提出了一种知识适应性字幕微调方法,有效平衡了字幕的描述性和幻觉风险。第五篇论文介绍了JanusFlow框架,将图像理解和生原创 2025-05-15 10:30:00 · 1682 阅读 · 0 评论 -
AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2024.11.05-2024.11.10
摘要: 本文介绍了一种名为ZOPP的零样本离板全景感知框架,旨在解决自动驾驶场景中的全景感知问题。ZOPP通过结合视觉和语言模型,利用预训练的多模态模型进行零样本推理,无需特定任务的训练数据。该框架通过生成语义和实例分割结果,结合上下文信息,实现了对复杂场景的全面理解。实验结果表明,ZOPP在多个基准数据集上表现出色,尤其是在零样本设置下,能够有效处理未见过的场景和对象。ZOPP的提出为自动驾驶中的全景感知提供了一种新的解决方案,具有广泛的应用前景。 本文探讨了多模态大型语言模型(MLLMs)在视觉语言任务原创 2025-05-15 10:30:00 · 825 阅读 · 0 评论 -
AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2024.11.01-2024.11.05
指令调整是调整大型视觉语言模型(LVLM)以满足个别任务要求的一种常用技术。迄今为止,大多数现有方法都局限于单任务适应,而真实世界场景中的要求本质上是多样且不断变化的。因此,理想的 LVLM 应在面对任务流分布(即不同领域、新兴能力和新数据集)时保持持续的指令调整,同时最大限度地减少对先前所获知识的遗忘。为了实现这一目标,我们提出了一个新的 LVLM 上的持续指令调优基准(COAST),它包含上述的领域增量、能力增量和数据集增量配置。原创 2025-05-14 10:30:00 · 888 阅读 · 0 评论 -
AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2024.10.25-2024.10.31
近期多模态与视觉语言模型领域的研究进展显著。首先,Neil Chowdhury等人提出的近邻归一化(NNN)方法,无需额外训练即可提升多模态检索模型的性能,实验表明其在CLIP、BLIP等模型上均有效。Hao Zhang等人开发的Text-DiFuse框架,通过文本调制扩散模型解决图像融合中的复合退化问题,显著提升了融合图像的语义性能。Haiwen Li等人提出的MoTaDual框架,通过模态-任务双重对齐,增强了零镜头合成图像检索的能力,在多个基准测试中表现优异。Chen Huang等人提出的聚合-适应提原创 2025-05-14 10:30:00 · 682 阅读 · 0 评论 -
AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2024.10.20-2024.10.25
本文摘要涵盖了六篇关于多模态和视觉语言模型的研究论文,涉及图像检索、风格化图像生成、生物医学任务、开放世界交互、图像-文本匹配以及视觉语言调整等领域。主要研究包括:1)ChatSearch 数据集和生成式检索模型 ChatSearcher,用于一般对话图像检索;2)零镜头风格化图像生成方案,通过图像到文本到图像的转换实现语义协调;3)可解释双语多模态大语言模型 MedRegA,用于生物医学任务;4)ROCKET-1 模型,利用视觉-时间上下文提示进行开放世界交互;5)EntityCLIP 模型,通过多模态注原创 2025-05-13 10:30:00 · 874 阅读 · 0 评论 -
AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2024.10.15-2024.10.20
本文摘要涵盖了六篇关于视觉语言模型和多模态模型的最新研究。首先,C-VUE系统通过自适应状态建模实现了连续视频理解,提高了处理长视频的效率和准确性。其次,ReGuide方法通过自生成的图像自适应概念提升了视觉语言模型的分布外检测能力。第三,NaturalBench基准测试揭示了现有视觉语言模型在处理自然对抗样本时的不足,提出了一种半自动化的评估方法。第四,CLIP-VAD利用CLIP模型进行语音活动检测,展示了其优于传统视觉方法的性能。第五,ZEAL方法利用大型视觉语言模型的置信度实现了零镜头动作定位,无需原创 2025-05-13 10:30:00 · 1001 阅读 · 0 评论 -
AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2024.10.10-2024.10.15
Locality Alignment Improves Vision-Language Models:本文提出了一种新的视觉语言模型(VLM)训练方法,通过定位对齐(locality alignment)和MaskEmbed微调程序,有效捕捉图像的局部和全局语义,显著提升了模型在空间理解任务中的表现。 LiveXiv -- A Multi-Modal Live Benchmark Based on Arxiv Papers Content:LiveXiv是一个基于ArXiv论文的多模态实时基准工具,通过自动原创 2025-05-12 10:30:00 · 758 阅读 · 0 评论 -
AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2024.10.01-2024.10.10
本文介绍了几篇关于多模态视觉语言模型的最新研究。AgroGPT提出了一种利用农业领域纯视觉数据构建指令调整数据的方法,创建了AgroGPT模型,擅长处理复杂农业对话。LatteCLIP提出了一种无监督方法,通过LMM生成文本描述来微调CLIP模型,适用于特定领域。Meissonic将非自回归掩蔽图像建模提升到与最先进扩散模型相媲美的水平,生成高质量高分辨率图像。MRAG-Bench提出了一个以视觉为中心的检索增强生成基准,评估多模态模型在利用视觉信息方面的能力。Q-VLM提出了大型视觉语言模型的训练后量化框原创 2025-05-12 10:30:00 · 980 阅读 · 0 评论 -
AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2024.09.25-2024.09.30
由于知识领域的差距和多模态数据的稀缺,外科手术视频语言预培训(VLP)面临着独特的挑战。本研究旨在通过解决手术讲座视频中的文本信息丢失问题和手术 VLP 的时空挑战来弥补这一差距。我们提出了一种分层知识增强方法和一种新颖的程序编码手术知识增强视频语言预训练(PeskaVLP)框架来解决这些问题。知识增强使用大型语言模型(LLM)来完善和丰富手术概念,从而提供全面的语言监督并降低过拟合风险。原创 2025-03-24 15:40:21 · 1002 阅读 · 0 评论 -
AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2024.09.20-2024.09.25
语义分割网络在独立和同分布数据的假设条件下取得了巨大成功。然而,由于这些网络通常训练的视觉概念集有限,因此在检测未知语义类别的异常情况时往往力不从心。为了解决这个问题,异常分割通常需要对离群样本进行微调,这就需要在数据收集、标记和模型再训练方面付出额外的努力。为了避免这种繁琐的工作,我们采取了一种不同的方法,建议将视觉语言(VL)编码器纳入现有的异常检测器,利用语义广泛的 VL 预训练来提高异常点识别能力。此外,我们还提出了一种新的评分功能,可通过文本提示实现无需数据和训练的异常点监督。原创 2025-03-24 15:40:04 · 679 阅读 · 0 评论 -
AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2024.09.15-2024.09.20
给定语言表达,参考遥感图像分割(RRSIS)旨在识别图像中的地面物体并分配像素标签。这项任务面临的主要挑战之一是通过文本-图像配准捕捉多模态特征。然而,现有的 RRSIS 方法使用的是一种虚构的粗对齐方式,即直接提取语言表达与视觉特征进行融合。本文认为,"细粒度图像-文本配准 "可以改善多模态信息的提取。为此,我们提出了一种新的遥感图像分割方法,称为 FIANet,它能充分利用视觉和语言表征。具体来说,原始参考表达被视为上下文文本,并进一步解耦为地面物体文本和空间位置文本。原创 2025-03-24 15:39:46 · 613 阅读 · 0 评论 -
AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2024.09.01-2024.09.05
标题:抽象文本摘要:技术现状、挑战和改进摘要相对于抽取式技术,本调查报告特别关注抽象文本摘要的发展前景,对最新技术、当前挑战和前瞻性研究方向进行了全面概述。我们将这些技术分为传统的序列到序列模型、预训练大型语言模型、强化学习、分层方法和多模态摘要。与以往没有详细研究复杂性、可扩展性和技术比较的作品不同,本综述采用了一种全面的方法,涵盖了最先进的方法、挑战、解决方案、比较、局限性,并描绘了未来的改进方向–为研究人员提供了一个广泛的概览,以推进抽象摘要研究。原创 2025-03-24 15:37:57 · 573 阅读 · 0 评论 -
AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2024.08.25-2024.08.31
自动图像异常检测对于制造业的质量检测非常重要。通常的无监督异常检测方法是利用正常样本数据集为每个对象类别训练一个模型。然而,更现实的问题是零/少镜头异常检测,在这种情况下,只有零个或几个正常样本可用。这就给特定对象模型的训练带来了挑战。最近,大型基础视觉语言模型在各种下游任务中显示出强大的零镜头性能。虽然这些模型学习了视觉和语言之间的复杂关系,但它们并不是专门为异常检测任务设计的。原创 2025-03-24 15:37:36 · 836 阅读 · 0 评论 -
AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2024.09.05-2024.09.10
在本文中,我们介绍了 “DetailCLIP:面向细节的 CLIP”,以解决基于对比学习的视觉语言模型,尤其是 CLIP,在处理分割等面向细节和细粒度任务时的局限性。虽然 CLIP 及其变体在图像和文本表征的全局对齐方面表现出色,但它们往往难以捕捉到精确分割所需的细粒度细节。为了克服这些挑战,我们提出了一个新颖的框架,该框架采用了补丁级自抖和像素级重构损失比较,并增强了基于注意力的标记去除机制。原创 2024-09-27 12:49:01 · 1166 阅读 · 0 评论 -
AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2024.09.10-2024.09.15
直接偏好优化(Direct Preference Optimization,DPO)的成功应用最近从对齐大型语言模型(LLMs)扩展到对齐具有人类偏好的文本到图像模型(text-to-image models),这引起了业界的极大兴趣。然而,我们注意到,这些方法在微调模型与参考模型的配准过程中,仅仅依赖于最小化反向库尔贝-莱伯勒分歧,而忽略了其他分歧约束的加入。在本研究中,我们重点将文本到图像模型配准范例中的反向库尔贝克-莱布勒发散扩展到。原创 2024-09-26 13:01:04 · 1271 阅读 · 1 评论 -
AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2024.08.20-2024.08.25
这项研究探索开发用于低资源语言(特别是阿塞拜疆语)图像检索的多模态视觉语言模型。现有的视觉语言模型主要支持高资源语言,对其进行微调仍然需要大量计算。为了应对低资源语言视觉语言检索的挑战,我们整合了 CLIP 模型架构,并采用了多种技术来平衡计算效率和性能。这些技术包括通过机器翻译生成合成数据、图像增强,以及使用特定领域的数据进一步训练基于转换器的模型的注意机制。原创 2024-09-05 15:46:10 · 930 阅读 · 0 评论 -
AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2024.08.15-2024.08.20
在机器学习应用中,检测失散(OOD)数据对于降低模型过度自信的风险,从而提高部署系统的可靠性和安全性至关重要。现有的大多数 OOD 检测方法主要针对单模态输入,如图像或文本。在多模态文档方面,这些方法的性能明显缺乏广泛的研究,它们主要是针对计算机视觉任务开发的。我们针对文档分类系统中的多模态 OOD 任务提出了一种新方法,称为注意力头屏蔽(AHM)。我们的实证结果表明,所提出的 AHM 方法优于所有最先进的方法,与现有的解决方案相比,它显著降低了假阳性率(FPR),最高可达 7.5%。原创 2024-09-03 13:05:58 · 1032 阅读 · 0 评论 -
AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2024.08.10-2024.08.15
在人-物互动(HOI)检测、场景图生成(SGG)和引用关系(RR)任务中,人们分别对视觉关系理解进行了研究。鉴于这些任务的复杂性和相互关联性,建立一个灵活的框架,以统一的方式有效地处理这些任务至关重要。在这项工作中,我们提出了 FleVRS,这是一个在标准和可提示视觉关系分割中无缝集成了上述三个方面的单一模型,并进一步具备了开放词汇分割的能力,以适应新的场景。FleVRS 利用文本和图像模式之间的协同作用,将图像中的各种类型的关系基础化,并将视觉语言模型中的文本特征用于视觉概念理解。原创 2024-09-02 12:48:35 · 1023 阅读 · 0 评论 -
AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2024.08.05-2024.08.10
GPT-4o 卓越的多模态能力和交互体验突出表明了其在实际应用中的必要性,然而开源模型却很少在这两个领域都有出色表现。在本文中,我们将介绍 VITA,它是有史以来第一个开源的多模态大语言模型(MLLM),善于同时处理和分析视频、图像、文本和音频模式,同时具有先进的多模态交互体验。从 Mixtral 8x7B 作为语言基础开始,我们扩充了它的中文词汇量,然后进行了双语教学调整。通过多模态对齐和指令调整的两阶段多任务学习,我们进一步赋予语言模型视觉和音频功能。原创 2024-08-15 13:15:35 · 1085 阅读 · 0 评论 -
AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2024.08.01-2024.08.05
虽然可以轻松在线访问预训练编码器,快速构建下游机器学习(ML)服务,但人们设计了各种攻击来破坏这些编码器的安全性和隐私性。虽然大多数攻击针对的是上游侧的编码器,但编码器在部署到下游机器学习服务中时如何受到威胁仍是未知数。本文揭示了一种新的漏洞:预训练编码器推理(PEI)攻击,这种攻击会对隐藏在下游 ML 服务背后的编码器造成隐私威胁。只需提供对目标下游服务和一组候选编码器的 API 访问,PEI 攻击就能根据候选编码器推断出目标服务秘密使用的编码器。原创 2024-08-14 12:40:03 · 1099 阅读 · 0 评论 -
AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2024.07.25-2024.08.01
现有的大型视觉语言模型(LVLMs)主要是将视觉编码器的图像特征与大型语言模型(LLMs)相匹配,以利用其卓越的文本生成能力。然而,视觉编码器和语言模型之间的规模差异可能会导致 LLM 在多模态理解中占据主导地位。LVLMs 的这种不平衡可能会导致幻觉的出现。具体来说,无论是否有视觉输入,LVLM 都能生成一致的描述,这表明某些输出完全受上下文文本的影响。我们将这种现象称为 “文本惯性”。为了解决这个问题,我们引入了一种无需训练的算法,以找到图像理解和语言推理之间的平衡点。原创 2024-08-05 12:43:42 · 936 阅读 · 0 评论 -
AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2024.07.20-2024.07.25
山水画的创作拓展了艺术创造力和想象力的可能性。传统的山水画方法是在宣纸上使用水墨或彩墨,这需要大量的时间和精力。这些方法容易出现错误和不一致性,并且缺乏对线条和色彩的精确控制。本文介绍了用于生成山水画的高保真、可控模型 LPGen,并引入了一个新颖的多模式框架,将图像提示集成到扩散模型中。我们通过计算目标景观图像中的可视边缘来提取其边缘和轮廓。这些信息与自然语言文本提示和绘画风格参考一起,作为条件输入到潜在扩散模型中。原创 2024-08-01 09:31:49 · 1299 阅读 · 0 评论 -
AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2024.07.15-2024.07.20
尽管在三维点云分割方面取得了重大进展,但现有方法主要针对特定任务,并依赖于显式指令来识别目标,缺乏在统一框架内推断和理解隐式用户意图的能力。在这项工作中,我们提出了一个名为 SegPoint 的模型,该模型利用多模态大语言模型(LLM)的推理能力,可在各种任务中生成按点划分的分割掩码:1)三维指令分割;2)三维指代分割;3)三维语义分割;4)三维开放词汇语义分割。为了推进三维教学研究,我们引入了一个新的基准–Instruct3D,旨在评估复杂和隐含教学文本的分段性能,其中包含 2,565 个点云-教学对。原创 2024-07-29 12:38:46 · 1242 阅读 · 0 评论 -
AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2024.07.05-2024.07.10
标题:多模态自我教学:利用语言模型进行合成抽象图像和视觉推理教学摘要尽管目前大多数大型多模态模型(LMM)已经能够理解自然场景和肖像的照片,但它们对抽象图像(如图表、地图或布局)的理解以及视觉推理能力仍然相当初级。他们在完成简单的日常任务时,如从时钟上读取时间、理解流程图或使用路线图规划路线时,往往会遇到困难。有鉴于此,我们设计了一种多模态自我指令,利用大型语言模型及其代码能力来合成日常场景中的大量抽象图像和视觉推理指令。原创 2024-07-18 13:11:52 · 923 阅读 · 0 评论 -
AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2024.07.10-2024.07.15
大语言模型(LLMs)以其强大的会话能力而闻名,在教育领域,特别是在语言学习的自动智能教学系统中,被公认为是卓越的工具。在本文中,我们提出了一种基于 LLMs 的评分系统,其动机是 LLMs 对文本相关评分任务的积极影响。具体来说,语音编码器首先将学习者的语音映射为上下文特征。然后,适配器层转换这些特征,使之与潜在空间中的文本嵌入相一致。评估任务特定的前缀和提示文本被嵌入并与模态适配器层生成的特征串联起来,从而使 LLM 能够预测准确度和流利度得分。原创 2024-07-16 12:39:31 · 1050 阅读 · 0 评论 -
AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2024.07.01-2024.07.05
我们提出了 InternLM-XComposer-2.5 (IXC-2.5),它是一种支持长语境输入和输出的多功能大视野语言模型。IXC-2.5 在各种文本图像理解和合成应用中表现出色,只需 7B LLM 后端就能实现 GPT-4V 级别的能力。它以 24K 交错图像-文本上下文进行训练,可通过 RoPE 外推法无缝扩展到 96K 长上下文。这种长上下文能力使 IXC-2.5 在需要大量输入和输出上下文的任务中表现出色。原创 2024-07-09 12:42:06 · 1616 阅读 · 0 评论 -
AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2024.06.25-2024.07.01
虽然大型语言模型(LLM)中文本嵌入的压缩表示取得了重大进展,但大型多模态模型(LMM)中视觉标记的压缩在很大程度上仍是一个被忽视的领域。在这项工作中,我们介绍了有关视觉标记冗余分析和这些模型中高效训练的研究。我们的初步实验表明,在测试阶段通过简单的平均池化消除多达 70% 的视觉标记,只会导致在 GQA 基准上视觉问题解答准确率最低降低 3%,这表明视觉语境中存在大量冗余。原创 2024-07-05 09:46:08 · 1388 阅读 · 0 评论 -
AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2024.06.20-2024.06.25
视频瞬间检索(VMR)旨在根据自然语言查询,在未经剪辑的长视频中定位特定的时间片段。现有方法往往存在训练注释不足的问题,即句子通常只与前景中一小部分突出的视频内容相匹配,而措辞的多样性有限。这种固有模态的不平衡使得相当一部分视觉信息无法与文本对齐。这就将跨模态对齐知识限制在了有限的文本语料库范围内,从而导致视觉-文本建模效果不理想,通用性差。原创 2024-07-02 13:44:41 · 1088 阅读 · 0 评论 -
AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2024.06.10-2024.06.15
在电子商务平台上改善用户体验和提供个性化搜索结果在很大程度上依赖于对购买意向的理解。然而,现有的获取大规模购买意向的方法依赖于提炼大型语言模型,并通过人工注释进行验证。这种方法往往会生成以产品为中心的购买意向,忽略了产品图片中宝贵的视觉信息,而且在可扩展性方面成本较高。为了解决这些问题,我们引入了 MIND,这是一个多模态框架,允许大型视觉语言模型(LVLM)从多模态产品元数据中推断购买意图,并优先考虑以人为中心的购买意图。原创 2024-06-26 12:40:21 · 1314 阅读 · 0 评论 -
AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2024.06.15-2024.06.20
大型视觉语言模型(LVLM)近来极大地推动了图像标题和许多图像理解任务(如视觉问题解答)的技术发展。然而,LVLMs 经常会产生幻觉,生成的标题中提到的概念在图像中找不到。这些幻觉削弱了 LVLM 的可信度,可以说是 LVLM 普及应用的主要障碍之一。最近的研究表明,增加接地目标–那些明确地将图像区域或对象与文本跨度对齐的目标–可以减少 LVLM 幻觉的数量。原创 2024-06-25 11:21:15 · 1251 阅读 · 0 评论 -
AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2024.06.05-2024.06.10
大型多模态语言模型在理解和编辑图像方面表现出了非凡的能力。然而,主要由于训练数据的限制,这些经过视觉调整的模型大多难以理解图像中嵌入的文本内容。在这项工作中,我们引入了 TRINS:文本丰富的图像 INStruction 数据集,目的是提高多模态大语言模型的阅读能力。TRINS 以 LAION 为基础,采用混合数据注释策略,包括机器辅助和人工辅助注释过程。它包含 39,153 张富含文本的图像、标题和 102,437 个问题。原创 2024-06-20 12:33:34 · 1253 阅读 · 0 评论 -
AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2024.06.01-2024.06.05
大型视觉语言模型(VLM)可以学习丰富的图像-文本联合表征,从而在相关的下游任务中表现出色。然而,它们未能展示出对物体的定量理解,也缺乏良好的计数感知表征。本文对 “教CLIP数到十”(Paiss等人,2023年)进行了可重复性研究,该研究提出了一种微调CLIP模型(Radford等人,2021年)的方法,通过引入计数对比损失项来提高图像中零点计数的准确性,同时保持零点分类的性能。我们利用较少的计算资源,在其训练数据的较小子集上提高了模型的性能。我们用自己的代码重现了他们的研究,从而验证了这些说法。原创 2024-06-20 12:32:16 · 1213 阅读 · 0 评论 -
AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2024.05.25-2024.05.31
标题:DeCo:多模态大语言模型中的标记压缩与语义抽象解耦摘要视觉投射器是视觉和语言模式之间的桥梁,可促进跨模式对齐,是 MLLM 的重要组成部分。然而,衡量投影器在视觉语言配准中的有效性的研究仍然不足,目前只能通过 MLLM 在下游任务中的表现来推断。受这一问题的启发,本研究通过解释 MLLM 中的视觉语言语义流来研究投射器模块。具体来说,我们回溯了从生成的语言标记到原始视觉编码器补丁的语义相关性流,以及投影仪产生的中间输出。原创 2024-06-05 13:28:09 · 1927 阅读 · 1 评论