VLMEvalKit: 一个开源的大规模视觉语言模型评估工具包

VLMEvalKit:开源大规模视觉语言模型评估工具包

VLMEvalKit是一个开源的大规模视觉语言模型(LVLM)评估工具包,旨在为研究人员和开发者提供一个便捷的平台,用于评估现有的视觉语言模型并发布可复现的评估结果。该工具包由开放指南(Open Compass)团队开发,支持对近100个视觉语言模型在30多个基准测试上进行评估。

主要特点

  1. 一键式评估: VLMEvalKit支持对LVLMs进行一键式评估,无需在多个代码库之间进行繁重的数据准备工作。

  2. 广泛的模型支持: 该工具包支持近100个视觉语言模型,包括API模型(如GPT-4v、Claude 3等)和开源PyTorch/HuggingFace模型(如LLaVA、InstructBLIP等)。

  3. 多样化的基准测试: VLMEvalKit包含30多个基准测试,涵盖图像理解、视频理解等多个方面。

  4. 生成式评估: 对所有LVLMs采用生成式评估方法,并提供基于精确匹配和基于LLM的答案提取两种方式获得的评估结果。

  5. 灵活性: 研究人员只需实现一个generate_inner()函数,即可在多个支持的基准测试上评估自己的VLM模型。其他工作(如数据下载、预处理、预测推理、指标计算等)均由代码库处理。

支持的数据集和模型

VLMEvalKit支持多种图像理解和视频理解数据集,包括MMBench系列、MME、MathVista、COCO Caption等。在模型方面,它支持众多API模型(如GPT-4v、Gemini-1.5-Pro等)和开源PyTorch/H

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值