多模态大模型评测数据集(二)

1.HallusionBench

github: https://github.com/tianyi-lab/HallusionBench

大型语言模型 (LLM) 与视觉模型对齐并集成到视觉语言模型 (VLM) 后,能够在图像推理任务中带来显著提升。近期发布的 GPT-4V(ison)、LLaVA-1.5 等模型已证实了这一点。然而,这些 SOTA 大型语言模型 (LVLM) 中强大的语言先验可能是一把双刃剑:它们可能会忽略图像上下文,仅依赖(甚至相互矛盾的)语言先验进行推理。相比之下,VLM 中的视觉模块比 LLM 弱,可能导致误导性的视觉表征,而这些表征随后会被 LLM 转化为可信错误。为了研究这两类 VLM 错误,即语言幻觉和视觉错觉,我们策划了 HallusionBench,这是一个图像上下文推理基准,即使对 GPT-4V 和 LLaVA-1.5 而言,它仍然具有挑战性。我们对 HallusionBench 中的示例进行了详细的分析,为 VLM 的错觉或幻觉以及未来如何改进它们提供了新的见解。

2.MMDU

github: https://liuziyu77.github.io/MMDU/
数据集地址:https://huggingface.co/datasets/laolao77/MMDU

多回合和多图像:我们的基准展示了最多 20 幅图像和 17 个回合的对话设置,从而超越了之前作品的范围并真实地复制了现实世界的聊天助手交互。
长上下文: MMDU 最多有 18k 个文本+图像标记,用于评估 LVLM 处理和理解具有长上下文历史的扩展上下文信息的能力。
开放式评估不同于传统的依赖于简洁输出的封闭式问题(例如多项选择题或简短答案)的基准,我们的基准采用了更现实、更细致的方法,通过优先考虑可扩展性和可解释性的自由形式多轮输出来评估 LVLM 的性能

尽管现在许多 LVLM 声称能够处理数万、数十万甚至数百万个长度的 token,但随着图像数量或上下文长度的增加,它们在实际应用中的实际性能会显著下降。在这些条件下,LVLM 的对

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值