REFORM-EVAL论文解析

本文解析了REFORM-EVAL论文,提出了一种统一的重构方法,针对LVLM的benchmark,解决现有任务对模型输出格式的限制。通过划分任务类型和评估策略,研究了模型结构、训练数据、指令跟随能力以及不稳定性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

REFORM-EVAL论文解析

简介:一个统一的重构后的测评LVLM的benchmark

背景:目前的benchmark中,和LVLM之间存在许多隔阂。许多benchmark是为特定任务设计的通常要求固定的输出格式,如希望LVLM直接回答简洁一个单词时、输出视觉对象的坐标、边界框输出等,LVLM任然会自由生成,这种benchmark不能合理评估LVLM的性能

方法:作者根据输出形式将数据集划分为:单选题问题:通过更改prompt,加入额外的负面意义的答案(可通过LLM自动生成或者WordNet构建意思相近的词),引导模型从自由生成转向为选择答案;文本生成问题:OCR、图像描述这种严格需求文本生成的场景。作者主要重构了前者。

任务类别划分:感知任务(场景文本识别、粗粒度感知如图像识别、细粒度感知如物体定位;场景文本识别为文本生成问题,回应需包含确切的需匹配的词,后两者被重构为单选问题)、认知任务(视觉推理、空间理解、图文关系推理、视觉描述、对话;视觉描述任务为文本生成问题,其余被重构为单选问题)

评估策略:对于文本生成任务,使用提示引导模型自由生成文本,对于OCR依据词级别准确率评估,对于视觉描述依据CIDEr评估。对于单选问题,分为黑盒方法(加入对图片解释无帮助的提示来引导LVLM输出单一选择的格式)、白盒方法(直接计算LVLM在给定图片、问 题下对于不同选项的生成概率,选择最高的作为模型的选择)

根据此benchmark实验后的总结:1)LVLM模型结构方面:评估了LLM、Visual Encoder、Connection Module。language backbones are supposed to possess strong instruction-following capabil ities. As for visual backbones, it’s advisable to choose ViT-G and carefully select a connection module compatible with the corresponding visual backbone. 2)训练数据方面:预训练数据的质量和基于指令微调的数据集的指令丰富性对模型性能、泛化性有帮助。3)指令遵循能力:引入强调输入格式的提示后,效果提升。4)不稳定性测试。基于LLM的模型对于不同但等效的指令敏感。使用了多种指令模板并随机选用。Option preference reduces the instability from random instructions and random option marks, but increases the insta bility from random option orders.

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值