1.HallusionBench
github: https://github.com/tianyi-lab/HallusionBench
大型语言模型 (LLM) 与视觉模型对齐并集成到视觉语言模型 (VLM) 后,能够在图像推理任务中带来显著提升。近期发布的 GPT-4V(ison)、LLaVA-1.5 等模型已证实了这一点。然而,这些 SOTA 大型语言模型 (LVLM) 中强大的语言先验可能是一把双刃剑:它们可能会忽略图像上下文,仅依赖(甚至相互矛盾的)语言先验进行推理。相比之下,VLM 中的视觉模块比 LLM 弱,可能导致误导性的视觉表征,而这些表征随后会被 LLM 转化为可信错误。为了研究这两类 VLM 错误,即语言幻觉和视觉错觉,我们策划了 HallusionBench,这是一个图像上下文推理基准,即使对 GPT-4V 和 LLaVA-1.5 而言,它仍然具有挑战性。我们对 HallusionBench 中的示例进行了详细的分析,为 VLM 的错觉或幻觉以及未来如何改进它们提供了新的见解。
2.MMDU
github: https://liuziyu77.github.io/MMDU/
数据集地址:https://huggingface.co/datasets/laolao77/MMDU
多回合和多图像:我们的基准展示了最多 20 幅图像和 17 个回合的对话设置,从而超越了之前作品的范围并真实地复制了现实世界的聊天助手交互。
长上下文: MMDU 最多有 18k 个文本+图像标记,用于评估 LVLM 处理和理解具有长上下文历史的扩展上下文信息的能力。
开放式评估不同于传统的依赖于简洁输出的封闭式问题(例如多项选择题或简短答案)的基准,我们的基准采用了更现实、更细致的方法,通过优先考虑可扩展性和可解释性的自由形式多轮输出来评估 LVLM 的性能
尽管现在许多 LVLM 声称能够处理数万、数十万甚至数百万个长度的 token,但随着图像数量或上下文长度的增加,它们在实际应用中的实际性能会显著下降。在这些条件下,LVLM 的对

最低0.47元/天 解锁文章
1万+

被折叠的 条评论
为什么被折叠?



