REFORM-EVAL论文解析
简介:一个统一的重构后的测评LVLM的benchmark
背景:目前的benchmark中,和LVLM之间存在许多隔阂。许多benchmark是为特定任务设计的通常要求固定的输出格式,如希望LVLM直接回答简洁一个单词时、输出视觉对象的坐标、边界框输出等,LVLM任然会自由生成,这种benchmark不能合理评估LVLM的性能
方法:作者根据输出形式将数据集划分为:单选题问题:通过更改prompt,加入额外的负面意义的答案(可通过LLM自动生成或者WordNet构建意思相近的词),引导模型从自由生成转向为选择答案;文本生成问题:OCR、图像描述这种严格需求文本生成的场景。作者主要重构了前者。
任务类别划分:感知任务(场景文本识别、粗粒度感知如图像识别、细粒度感知如物体定位;场景文本识别为文本生成问题,回应需包含确切的需匹配的词,后两者被重构为单选问题)、认知任务(视觉推理、空间理解、图文关系推理、视觉描述、对话;视觉描述任务为文本生成问题,其余被重构为单选问题)
评估策略:对于文本生成任务,使用提示引导模型自由生成文本,对于OCR依据词级别准确率评估,对于视觉描述依据CIDEr评估。对于单选问题,分为黑盒方法(加入对图片解释无帮助的提示来引导LVLM输出单一选择的格式)、白盒方法(直接计算LVLM在给定图片、问 题下对于不同选项的生成概率,选择最高的作为模型的选择)
根据此benchmark实验后的总结:1)LVLM模型结构方面:评估了LLM、Visual Encoder、Connection Module。language backbones are supposed to possess strong instruction-following capabil ities. As for visual backbones, it’s advisable to choose ViT-G and carefully select a connection module compatible with the corresponding visual backbone. 2)训练数据方面:预训练数据的质量和基于指令微调的数据集的指令丰富性对模型性能、泛化性有帮助。3)指令遵循能力:引入强调输入格式的提示后,效果提升。4)不稳定性测试。基于LLM的模型对于不同但等效的指令敏感。使用了多种指令模板并随机选用。Option preference reduces the instability from random instructions and random option marks, but increases the insta bility from random option orders.