LVLM
文章平均质量分 90
Mars_prime
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Mitigating Object Hallucination in Large Vision-Language Models via Classifier-Free Guidance----通过
大视觉语言模型(LVLM)的进步日益凸显了它们容易产生图像中不存在物体的幻觉这一关键问题。为了解决这个问题,以前的工作重点是使用专门策划的数据集或强大的 LLM(例如 GPT-3.5)来纠正 LVLM 的输出。然而,这些方法需要昂贵的培训/微调或 API 访问高级 LLM 来纠正模型的输出生成后。在本文中,我们通过引入一个名为“Mitigating幻觉通过无分类指导(MARINE)”的框架来应对这一挑战,该框架既无需训练,也无需API,可以有效且高效地减少生成过程中的物体幻觉。原创 2024-03-25 15:16:41 · 1580 阅读 · 0 评论 -
An Image is Worth 1/2 Tokens After Layer 2: Plug-and-Play Inference Acceleration for Large Vision-La
在这项研究中,我们发现了大视觉语言模型 (LVLM) 中的低效注意力现象,特别是在 LLaVA-1.5、QwenVL-Chat 和 Video-LLaVA 等著名模型中。我们发现,在流行的 LVLM 的深层中,视觉标记的注意力计算效率极低,这表明与文本数据处理相比,需要一种更稀疏的方法。为此,我们引入了 FastV,这是一种多功能的即插即用方法,旨在通过在早期层中学习自适应注意力模式并在后续层中修剪视觉标记来优化计算效率。原创 2024-03-18 21:52:25 · 1587 阅读 · 0 评论 -
Hal-Eval: A Universal and Fine-grained Hallucination Evaluation Framework for Large Vision Language
大视觉语言模型 (LVLM) 表现出非凡的能力,但与“幻觉”(图像与其描述之间的不一致)作斗争。先前对 LVLM 的幻觉评估研究已经识别了物体、属性和关系方面的幻觉,但忽略了围绕虚构实体创建完整叙述的复杂幻觉。在本文中,我们介绍了幻觉的精确分类法,其中包括一个新类别:事件幻觉。然后,我们利用先进的LLM来生成和过滤由各种类型的幻觉组成的细粒度幻觉数据,特别关注事件幻觉,为在我们的通用评估框架中整合判别性和生成性评估方法奠定基础。原创 2024-03-04 16:23:04 · 1275 阅读 · 0 评论 -
Flamingo: a Visual Language Model for Few-Shot Learning----Flamingo:用于少样本学习的视觉语言模型
文本生成由 Transformer 解码器执行,以感知器重采样器生成的视觉表示为条件。我们将预训练和冻结的纯文本 LM 块与从头开始训练的块交错,这些块交叉参与感知器重采样器的视觉输出。在冻结的预训练 LM 中交错新的 GATED XATTN-DENSE 层。我们冻结预训练的 LM 块,并在原始层之间插入门控交叉注意力密集块(图 4),从头开始训练。为了确保在初始化时,条件模型产生与原始语言模型相同的结果,我们使用 tanh 门控机制 [41]。原创 2024-03-04 14:48:18 · 2370 阅读 · 0 评论 -
Shikra: Unleashing Multimodal LLM’s Referential Dialogue Magic----Shikra:释放多模式法学硕士的参考对话魔力
在人类对话中,个人在向他人讲话时可以指出场景中的相关区域。反过来,如果有必要,对方也可以通过提及特定区域来做出回应。在当前的多模态大语言模型(MLLM)中,对话中的这种自然参考能力仍然不存在。为了填补这一空白,本文提出了一种名为 Shikra 的 MLLM,它可以处理自然语言的空间坐标输入和输出。其架构由视觉编码器、对齐层和 LLM 组成。它的设计简单明了,不需要额外的词汇、位置编码器、前/后检测模块或外部插件模型。所有输入和输出都是自然语言形式。参考对话是各种视觉语言(VL)任务的超集。原创 2024-01-18 13:52:31 · 1482 阅读 · 0 评论 -
MINIGPT-4: ENHANCING VISION-LANGUAGE UNDERSTANDING WITH ADVANCED LARGE MINIGPT-4:利用先进的大型语言模型增强视觉语言理解
最近的 GPT-4 展示了非凡的多模式能力,例如直接从手写文本生成网站以及识别图像中的幽默元素。这些特征在以前的视觉语言模型中很少观察到。然而,GPT-4 背后的技术细节仍未公开。我们相信 GPT-4 增强的多模态生成能力源于复杂的大语言模型 (LLM) 的利用。为了研究这一现象,我们提出了 MiniGPT-4,它使用一个投影层将冻结的视觉编码器与冻结的高级 LLM、Vicuna 对齐。原创 2024-01-16 20:50:44 · 1322 阅读 · 1 评论 -
Visual Instruction Tuning----视觉指令调整
使用机器生成的指令跟踪数据进行指令调优大型语言模型 (LLM) 已被证明可以提高新任务的零样本能力,但这一想法在多模态领域的探索较少。我们首次尝试使用纯语言 GPT-4 来生成多模态语言图像指令跟踪数据。通过对此类生成数据进行指令调整,我们推出了 LLaVA:大型语言和视觉助手,这是一种端到端训练的大型多模态模型,连接视觉编码器和 LLM 以实现通用视觉和语言理解。为了促进未来视觉指令跟随的研究,我们构建了两个具有多样化且具有挑战性的面向应用的任务的评估基准。原创 2024-01-15 18:29:44 · 1549 阅读 · 0 评论 -
BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Mode
由于大规模模型的端到端训练,视觉和语言预训练的成本变得越来越高。本文提出了 BLIP-2,这是一种通用且高效的预训练策略,可从现成的冻结预训练图像编码器和冻结大型语言模型引导视觉语言预训练。BLIP-2 通过轻量级查询转换器弥补了模态差距,该转换器分两个阶段进行预训练。第一阶段从冻结图像编码器引导视觉语言表示学习。第二阶段从冻结的语言模型引导视觉到语言的生成学习。尽管可训练参数比现有方法少得多,但 BLIP-2 在各种视觉语言任务上实现了最先进的性能。原创 2024-01-14 18:02:54 · 1319 阅读 · 0 评论 -
Generalization and Hallucination of Large Vision-Language Models through a Camouflaged Lens
大视觉语言模型(LVLM)最近得到了蓬勃发展并日益受到关注。在本文中,我们提出了一种新颖的框架,即迷彩感知视觉语言框架(CPVLF),以探索 LVLM 是否可以以免训练的方式泛化到具有挑战性的伪装物体检测(COD)场景。在泛化过程中,我们发现由于LVLM内部的幻觉问题,它会错误地感知伪装场景中的物体,产生反事实的概念。此外,由于 LVLM 没有经过专门训练来精确定位伪装物体,因此它在准确定位这些物体时表现出一定程度的不确定性。因此,我们提出视觉感知链,从语言和视觉角度增强LVLM对伪装场景的感知,减少幻觉问原创 2023-12-22 14:44:41 · 1254 阅读 · 0 评论 -
认识“DRESS”:通过自然语言反馈与人类协调和互动的大视觉语言模型 (LVLM)
来自 SRI International 和伊利诺伊大学厄巴纳-香槟分校的研究团队提出了 DRESS,这是一种 LVLM,在这项工作中使用法学硕士产生的自然语言反馈 (NLF) 进行独特的教学(参见图 1)。这是一个新颖的分类。此外,虽然之前的研究鼓励以多轮形式组织视觉指令调整样本,但 LVLM 的交互能力受到不同轮之间的弱连接和相互依赖的限制。实验结果表明,与早期的 LVLM 相比,DRESS 可以提供符合人类价值观的回复,并具有卓越的交互能力,使其能够从反馈中学习并根据需要有效地修改响应。原创 2023-12-22 14:32:12 · 1630 阅读 · 0 评论 -
Lyrics: Boosting Fine-grained Language-Vision Alignment via Semantic-aware Visual Objects
大视觉语言模型 (LVLM) 在各种视觉语言对话场景中展示了令人印象深刻的零样本能力。然而,细粒度视觉对象检测的缺乏阻碍了模型理解图像的细节,导致不可挽回的视觉幻觉和事实错误。在本文中,我们提出了 Lyrics,这是一种新颖的多模式预训练和指令微调范例,可以通过细粒度的跨模式协作引导视觉语言对齐。Lyrics 在 BLIP-2 的基础上构建,将从视觉细化器中提取的局部视觉特征(包括图像标记、对象检测和语义分割模块)注入到查询转换器中,而在文本方面,语言输入配备了边界框和标签源自视觉细化器。原创 2023-12-21 20:19:01 · 1492 阅读 · 0 评论
分享