大模型幻觉
文章平均质量分 92
Mars_prime
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Hal-Eval: A Universal and Fine-grained Hallucination Evaluation Framework for Large Vision Language
大视觉语言模型 (LVLM) 表现出非凡的能力,但与“幻觉”(图像与其描述之间的不一致)作斗争。先前对 LVLM 的幻觉评估研究已经识别了物体、属性和关系方面的幻觉,但忽略了围绕虚构实体创建完整叙述的复杂幻觉。在本文中,我们介绍了幻觉的精确分类法,其中包括一个新类别:事件幻觉。然后,我们利用先进的LLM来生成和过滤由各种类型的幻觉组成的细粒度幻觉数据,特别关注事件幻觉,为在我们的通用评估框架中整合判别性和生成性评估方法奠定基础。原创 2024-03-04 16:23:04 · 1275 阅读 · 0 评论 -
ALIGNING LARGE MULTIMODAL MODELS WITH FACTUALLY AUGMENTED RLHF----将大型多模态模型与事实增强的 RLHF 结合起来
大型语言模型(LLM;Brown 等人(2020);Chowdhery 等(2022);OpenAI(2023))可以通过图像-文本对的进一步预训练来深入研究多模态领域(Alayrac 等人;Awadalla 等人,2023)或通过专门的视觉指令调整数据集对其进行微调(Liu 等人,2023a;Zhu 等人,2023),导致强大的大型多模态模型(LMM)的出现。然而,开发 LMM 面临挑战,特别是多模式数据与纯文本数据集的数量和质量之间的差距。原创 2023-12-21 15:31:06 · 1778 阅读 · 0 评论 -
Beyond Hallucinations: Enhancing LVLMs through Hallucination-Aware Direct Preference Optimization
近年来,多模态大语言模型取得了显着的进步,但它们仍然面临着一个被称为“幻觉问题”的常见问题,即模型生成的文本描述包含图像中不准确或不存在的内容。为了解决这个问题,本文引入了一种新颖的策略:幻觉感知直接偏好优化(HA-DPO)。我们的方法将幻觉问题视为一个独特的偏好选择问题,其中模型经过训练,在出现同一图像的两个响应(一个是准确的,一个是幻觉的)时支持非幻觉响应。本文还提出了一种构建幻觉样本对的有效流程,以确保高质量、风格一致的样本对,从而实现稳定的 HA-DPO 训练。原创 2023-12-20 21:03:26 · 1435 阅读 · 0 评论 -
Compositional Chain-of-Thought Prompting for Large Multimodal Models大型多模态模型的组合思想链提示
强大的视觉主干和大型语言模型 (LLM) 推理的结合使大型多模态模型 (LMM) 成为各种视觉和语言 (VL) 任务的当前标准。然而,最近的研究表明,即使是最先进的 LMM 仍然难以捕获组合视觉推理的各个方面,例如对象之间的属性和关系。一种解决方案是利用场景图(SG)——对象及其关系和属性的形式化,已被广泛用作视觉和文本领域之间的桥梁。然而,场景图数据需要场景图注释,收集这些注释的成本很高,因此不易扩展。此外,基于 SG 数据微调 LMM 可能会导致灾难性地忘记预训练目标。原创 2023-12-18 21:06:28 · 1861 阅读 · 0 评论 -
Multimodal Chain-of-Thought Reasoning in Language Models语言模型中的多模态思维链推理
大型语言模型 (LLM) 通过利用思维链 (CoT) 提示生成中间推理链作为推断答案的基本原理,在复杂推理方面表现出了令人印象深刻的性能。然而,现有的 CoT 研究主要集中在语言情态上。我们提出了 Multimodal-CoT,它将语言(文本)和视觉(图像)模态合并到一个两阶段框架中,将基本原理生成和答案推理分开。通过这种方式,答案推理可以更好地利用基于多模态信息生成的基本原理。原创 2023-12-18 20:59:56 · 2950 阅读 · 1 评论 -
Fine-Grained Semantically Aligned Vision-Language Pre-Training细粒度语义对齐的视觉语言预训练
接下来,我们将 softmax-normalization 应用于一个获得一个~.对于我-th 区域,我们将其最大对齐分数计算为麦克斯�一个~我�.然后,我们使用所有区域的平均最大对齐分数作为细粒度图像与文本的相似度�1.同样,我们可以获得细粒度的文本与图像的相似度�2,并且可以定义总的细粒度相似度分数:�=(�1+�2)/2.直观地讲,假设一组补丁标记对应图像中的视觉实例,那么它们往往具有很强的交互性,形成对应实例的完整语义,这有助于更好地判断与配对文本的相似度。,我们设计了一个轻量级的区域生成模块。原创 2023-12-13 19:38:33 · 2029 阅读 · 0 评论 -
Exposing and Mitigating Spurious Correlations for Cross-Modal Retrieval暴露和减轻跨模态检索的虚假相关性
模式检索方法是在数据库中搜索与查询图像最匹配的文本的首选工具,反之亦然。然而,图像文本检索模型通常学习记住训练数据中的虚假相关性,例如频繁的对象共现,而不是查看图像中预测的实际根本原因。对于图像文本检索,这体现在提及查询图像中不存在的对象的检索句子中。在这项工作中,我们引入了 ODmAP@k,一种对象去相关度量,用于衡量模型对训练数据中的虚假相关性的鲁棒性。我们使用自动图像和文本操作来控制指定测试数据中此类对象相关性的存在。原创 2023-12-13 15:11:40 · 1674 阅读 · 0 评论 -
Aligning Large Multi-Modal Model with Robust Instruction Tuning将大型多模态模型与稳健的指令调整相结合
尽管多模态任务取得了有希望的进展,但当前的大型多模态模型(LMM)很容易产生与相关图像和人类指令不一致的描述的幻觉。本文通过引入第一个大型且多样化的视觉指令调整数据集来解决这个问题,该数据集名为大规模鲁棒视觉(LRV)指令。我们的数据集由 GPT4 生成的 120k 视觉指令组成,涵盖 16 个具有开放式指令和答案的视觉和语言任务。与主要关注正面指令样本的现有研究不同,我们设计的包含正面和负面指令,以实现更稳健的视觉指令调整。我们的否定指令是在两个语义级别设计的:(i)不存在的元素操作和。原创 2023-12-12 14:20:51 · 1610 阅读 · 0 评论 -
Let there be a clock on the beach: Reducing Object Hallucination in Image Captioning
用缺失或不存在的对象来解释图像被称为图像字幕中的对象偏差(幻觉)。这种行为在最先进的字幕模型中非常常见,这是人类所不希望的。为了减少字幕中的物体幻觉,我们提出了三种简单而有效的句子训练增强方法,不需要新的训练数据或增加模型大小。通过广泛的分析,我们表明所提出的方法可以显着减少我们的模型对幻觉指标的对象偏差。此外,我们通过实验证明我们的方法减少了对视觉特征的依赖。我们所有的代码、配置文件和模型权重均可在线获取1。1介绍在他的开创性著作中 [24],库恩表示,异常现象的发现通常会带来新的范式。原创 2023-12-12 14:20:28 · 1197 阅读 · 0 评论 -
MME: A Comprehensive Evaluation Benchmark for Multimodal Large Language ModelsMME:多模态大语言模型综合评估基准
在本节中,我们对 MME 基准进行了大量实验,以评估总共 12 个开源 MLLM,包括 BLIP-2、LLaVA、MiniGPT-4、mPLUG-Owl、LLaMA-Adapter-v2、Otter、Multimodal-GPT、 InstructBLIP、VisualGLM-6B、PandaGPT、ImageBind-LLM 和 LaVIN。细粒度的识别更多的是测试MLLM的知识资源。为了推断出正确的答案,MLLM需要遵循指令,感知图像的内容,并调用LLM中保留的知识,这比单一的感知任务更具挑战性。原创 2023-12-11 15:18:50 · 8023 阅读 · 0 评论 -
Evaluating Object Hallucination in Large Vision-Language Models----评估大视觉语言模型中的物体幻觉
在第 3 节的实证结果中,我们揭示了 LVLM 中物体幻觉问题的严重性,并强调了现有评估方法的局限性,例如对指令敏感和偏向短字幕。此外,现有的方法大多依赖于解析生成的标题来提取预测的对象,这通常需要人为设计的复杂规则,并且仍然不可避免地遗漏或错误分类对象。因此,我们考虑设计一种更适合LVLM稳定、公平和灵活的物体幻觉评估的方法,即基于轮询的物体探测评估(POPE)。具体来说,POPE 将对象幻觉的评估制定为二元分类任务,提示 LVLM 输出“是”或“否”,例如“图像中有一把椅子吗?原创 2023-12-11 13:05:29 · 3190 阅读 · 0 评论 -
Evaluation and Analysis of Hallucination in Large Vision-Language Models----大视觉语言模型中幻觉的评估与分析
以 ChatGPT 为代表的大型语言模型(LLM)的成功引起了广泛的关注(Zhang et al., 2022;最近,大视觉语言模型(LVLM)扩展了 LLM 来理解视觉输入,并以零样本的方式展示令人印象深刻的多模态能力(Zhu et al., 2023;Gong)等,2023;Wang 等,2023;Li 等,2023a;Mu 等,2023;Su 等,2023;Liu 等,2020)。这些努力推动了多模态通用人工智能的发展。原创 2023-11-30 20:10:49 · 1861 阅读 · 0 评论 -
ANALYZING AND MITIGATING OBJECT HALLUCINATION IN LARGE VISION-LANGUAGE MODELS分析和减轻大视觉语言模型中的物体幻觉
大型视觉语言模型(LVLM)在用人类语言理解视觉信息方面表现出了卓越的能力。然而,LVLM 仍然存在物体幻觉的问题,即生成包含图像中实际不存在的物体的描述的问题。这可能会对许多视觉语言任务产生负面影响,例如视觉摘要和推理。为了解决这个问题,我们提出了一种简单而强大的算法,LVLM Hallucination Revisor (LURE),通过重建较少的幻觉描述来事后纠正 LVLM 中的对象幻觉。原创 2023-11-28 22:38:55 · 1769 阅读 · 0 评论 -
Mitigating Object Hallucinations in Large Vision-Language Models through Visual Contrastive Decoding
大视觉语言模型(LVLM)已经取得了长足的进步,将视觉识别和语言理解交织在一起,生成不仅连贯而且与上下文相协调的内容。尽管取得了成功,LVLM 仍然面临物体幻觉的问题,即模型生成看似合理但不正确的输出,其中包括图像中不存在的物体。为了缓解这个问题,我们引入了视觉对比解码(VCD),这是一种简单且无需训练的方法,可以对比源自原始视觉输入和扭曲视觉输入的输出分布。所提出的 VCD 有效减少了对统计偏差和单峰先验的过度依赖,这是物体幻觉的两个重要原因。原创 2023-12-04 15:25:08 · 3118 阅读 · 0 评论 -
Woodpecker: Hallucination Correction for Multimodal Large Language Models----啄木鸟:多模态大语言模型的幻觉校正
多模态大型语言模型(MLLM)[41]现在在研究界蓬勃发展,致力于通用人工智能(AGI)。通过利用强大的大型语言模型 (LLM),研究人员将视觉等外来模态与语言结合起来,并开发具有各种令人兴奋的功能的 MLLM [1,21,40,44,47],例如完整描述给定图像的内容。然而,尽管这些 MLLM 很强大,但它们有时会输出与输入图像不一致的描述。它被称为幻觉,并且已被发现在 MLLM 中普遍存在[20]。原创 2023-11-29 23:05:13 · 1670 阅读 · 0 评论 -
Plausible May Not Be Faithful: Probing Object Hallucination in Vision-Language Pre-training在视觉语言预训练中
大规模视觉语言预训练(VLP)模型在基于视觉信息生成文本时容易产生不存在的视觉对象的幻觉。本文从三个方面系统地研究了物体幻觉问题。首先,我们检查了最近最先进的 VLP 模型,结果表明它们仍然经常产生幻觉,并且在标准指标(例如 CIDEr)上获得更好分数的模型可能更不忠实。其次,我们研究了 VLP 中不同类型的图像编码如何影响幻觉,包括基于区域、基于网格和基于色块的图像编码。令人惊讶的是,我们发现基于色块的特征表现最好,并且较小的色块分辨率可以显着减少物体幻觉。原创 2023-11-27 15:32:30 · 1166 阅读 · 0 评论
分享