多模态模型的语言幻觉和视觉幻觉

HALLUSIONBENCH: You See What You Think?Or You Think What You See?

An Image-Context Reasoning Benchmark Challenging for GPT-4V(ision),LLaVA-1.5, and Other Multi-modality Models
论文链接
github地址

论文中提出大的多模态模型出现“语言幻觉”和视觉错觉由下面的原因导致的:

  1. 多模态模型可能会忽略图像上下文,只依赖(甚至是矛盾的)语言先验进行推理,语言的先验知识可能与图片中的内容相矛盾。
  2. VLM中的视觉模块比LLM弱,可能导致误导性的视觉表示,然后LLM将其转化为自信的错误。

Language Hallucination and Visual Illusion. While the former is caused by the reasoning bias from the parametric memory of LLMs in those models, the latter is due to the misinterpretation of the visual patterns in the image context.
语言幻觉与视觉错觉。前者是由这些模型中LLM的参数记忆的推理偏差引起的,而后者是对图像视觉模式的误解

关于语言幻觉和视觉幻觉的定义

“Language Hallucination” is a perception not based on sensory input, whereas “Visual Illusion” is a misinterpretation of a correct sensory input
“语言幻觉”是一种不基于感官输入的感知,而“视觉幻觉”是对正确感官输入的误解

文章中设计了一系列的能表现语言幻觉和视觉幻觉的实验,共200对图像-问题-答案对。包括表格、地图、海报、视频帧等,以及修改后的图片,这些修改的图片只有小幅的修改,但是对于同一问题的答案是完全不同的。
这些实验分为两大类视觉依赖型和视觉辅助型。视觉依赖型的问题的答案与图片的内容强相关(比如:图片的左上角是什么?)视觉补充型是一些常识型的问题(比如:提供一张中国地图,问上海和北京两个城市的面积,哪个更大 )

视觉依赖型

主要考察模型下面几种能力:

  1. 模型的视觉理解和推理能力
  2. 语言模型的参数记忆如何影响模型的推理结果
  3. 模型能否捕捉多个图像之间的时间关系

对比实验设计:修改图片中的一个小部分,关于问题的答案与修改之前不同。这部分属于“难例”

视觉辅助型

主要考察模型下面几种能力:

  1. 当模型不知道参数记忆的答案时,模型(仍然)会对图像产生幻觉吗?
  2. 当模型从参数记忆中知道答案时,模型会从视觉补充中获得更多细节来更好地回答问题吗(尤其是在两者之间存在冲突信息或参数记忆过时的情况下)?
  3. 模型能在多大程度上获得具有密集信息的视觉效果(如图形、图表、地图等)并用于回答问题?什么操作会干扰信息提取

对比实验设计:不提供图片和提供图片

一些对比实验

增加了CogVLM模型的输出结果

视觉依赖型

  1. 图形尺寸
    在这里插入图片描述
    在这里插入图片描述
  2. 连续帧的理解
    在这里插入图片描述

视觉辅助型

  1. 字符识别
    在这里插入图片描述
  2. 表格理解
    在这里插入图片描述
    在这里插入图片描述
    language hallucination 语言的幻觉
    visual illusion 视觉幻觉
评估多模态模型幻觉是指对模型在处理生成多模态数据(如文本、图像、音频等)时出现的错误或不准确信息进行评估分析。多模态模型在各个领域有着广泛的应用,如自然语言处理、计算机视觉、语音识别等,但它们也可能产生幻觉,即生成与输入数据不符或不合理的输出。评估这些模型幻觉有助于提高其准确性可靠性。 评估多模态模型幻觉的方法主要包括以下几个方面: 1. **数据集选择**:选择包含多种模态的数据集,并确保数据的多样性代表性。数据集应包含各种可能的输入组合,以全面评估模型的表现。 2. **评估指标**:设计合适的评估指标来量化模型的性能。常用的指标包括准确率、召回率、F1分数等。此外,还可以使用特定的指标来评估幻觉,如幻觉率(即模型生成错误信息的比例)。 3. **人工评估**:邀请专家或用户对模型的输出进行人工评估,判断其准确性合理性。人工评估可以提供定性的反馈,帮助识别模型在特定任务中的不足之处。 4. **对比实验**:将多模态模型与其他模型进行对比实验,评估其在不同任务上的表现。通过对比,可以发现模型的优势劣势,从而指导改进。 5. **错误分析**:对模型产生的错误进行详细分析,找出其产生幻觉的原因。常见的原因包括数据偏差、模型结构缺陷、训练不充分等。 通过以上方法,可以全面评估多模态模型幻觉,并提出相应的改进措施,提高模型的性能可靠性。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值