VLMEvalKit: 一个开源的大规模视觉语言模型评估工具包

最新推荐文章于 2025-03-16 08:00:00 发布

2401_87458778

最新推荐文章于 2025-03-16 08:00:00 发布

阅读量1.1k

点赞数 25

文章标签：语言模型人工智能自然语言处理

本文链接：https://blog.youkuaiyun.com/2401_87458778/article/details/143050936

版权

VLMEvalKit:开源大规模视觉语言模型评估工具包

VLMEvalKit是一个开源的大规模视觉语言模型(LVLM)评估工具包,旨在为研究人员和开发者提供一个便捷的平台,用于评估现有的视觉语言模型并发布可复现的评估结果。该工具包由开放指南(Open Compass)团队开发,支持对近100个视觉语言模型在30多个基准测试上进行评估。

主要特点

一键式评估: VLMEvalKit支持对LVLMs进行一键式评估,无需在多个代码库之间进行繁重的数据准备工作。
广泛的模型支持: 该工具包支持近100个视觉语言模型,包括API模型(如GPT-4v、Claude 3等)和开源PyTorch/HuggingFace模型(如LLaVA、InstructBLIP等)。
多样化的基准测试: VLMEvalKit包含30多个基准测试,涵盖图像理解、视频理解等多个方面。
生成式评估: 对所有LVLMs采用生成式评估方法,并提供基于精确匹配和基于LLM的答案提取两种方式获得的评估结果。
灵活性: 研究人员只需实现一个generate_inner()函数,即可在多个支持的基准测试上评估自己的VLM模型。其他工作(如数据下载、预处理、预测推理、指标计算等)均由代码库处理。

支持的数据集和模型

VLMEvalKit支持多种图像理解和视频理解数据集,包括MMBench系列、MME、MathVista、COCO Caption等。在模型方面,它支持众多API模型(如GPT-4v、Gemini-1.5-Pro等)和开源PyTorch/H

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

2401_87458778

关注关注

25
点赞
踩
29

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

LLM - 多模态大模型的开源评估工具 VLMEvalKit 部署与测试教程

AGI

12-09

1314

VLMEvalKit 是大型视觉语言模型设计的开源评估工具包，由 Open Compass 团队开发，它支持一键式评估体验，无需繁琐的数据准备工作，能够对多种视觉语言模型进行评估，并覆盖了多样化的任务场景。

VLMEvalKit 评测实践:InternVL2 VS Qwen2VL

m0_55303420的博客

09-16

3600

多模态技术的突破，正在改变我们理解和交互世界的方式。无论是强大的感知能力、复杂的推理分析，还是图文融合的创新应用，InternVL2 与 Qwen2-VL 展现了大模型的无限可能。

参与评论您还未登录，请先登录后发表或查看评论

VLMEvalKit多模态大模型评测工具源码解析

酌沧

10-21

1257

vlmeval/api和vlmeval/vlm文件夹下分别是api接口和本地运行的大模型的代码基类都是basevlmeval/dataset是数据集处理代码vlmeval/inference.py是推理代码run.py的整个流程。

VLMEvalKit：一站式大模型评估解决方案

gitblog_00084的博客

06-04

926

VLMEvalKit：一站式大模型评估解决方案项目地址:https://gitcode.com/gh_mirrors/vl/VLMEvalKit 随着视觉与语言融合模型（LVLMs）在人工智能领域的迅速发展，准确评估这些模型的性能成为了研究人员和开发者的一大挑战。为此，我们欣喜地向您推荐VLMEvalKit——一个面向大规模视觉语言模型的开源评价工具包，它让跨模态基准测试变得更加简单、高效。项...

AI大模型系列：OpenCompass（司南）大模型测评工具介绍和实践

Android23333的博客

03-16

1340

本篇要介绍的OpenCompass工具已经内置了一系列大模型测评常用的步骤模块，从而实现对大模型的高效自动化测评。OpenCompass是一个一站式的大模型评估平台，旨在为大模型评估提供一个公平、开放和可复制的基准。它不仅量化了模型在知识、语言、理解、推理等方面的能力，还推动了模型的迭代和优化。其主要特点包括：

VLMEvalKit

whaosoft143ai的博客

01-19

952

这种方式同时适用于 API 模型 (QwenVLPlus，参考：https://github.com/open-compass/VLMEvalKit/pull/27/) 与开源模型 (Monkey，参考：https://github.com/open-compass/VLMEvalKit/pull/45)。【支持新模型】Support Monkey (#45)：https://github.com/open-compass/VLMEvalKit/pull/45/files。whaosoft aiot htt

大型视觉语言模型评估工具包——VLMEvalKit介绍与应用探秘

gitblog_01172的博客

08-26

442

大型视觉语言模型评估工具包——VLMEvalKit介绍与应用探秘 VLMEvalKitOpen-source evaluation toolkit of large vision-language models (LVLMs), support GPT-4v, Gemini, QwenVLPlus, 50+ HF models, 20+ benchmarks项目地址:https://gitcod...

开源评估利器 VLMEvalKit，搞定多模态大模型评估的秘密武器

寻道AI，探索AI无限可能！

01-23

1844

如今，视觉语言模型（VLM）在学术界和工业界到处“开花”，用处特别多。但这也带来了新麻烦，因为模型架构各式各样、训练数据五花八门、应用场景千差万别，以前评估模型的老方法根本应付不过来，变得又复杂又容易出错。好在 VLMEvalKit 出现了，它把丰富的基准数据集、厉害的评估策略还有对好多流行模型的支持都整合到一起，就像是给混乱的评估工作找到了一把万能钥匙，成了多模态领域特别重要的评估工具。

多模态大模型 intern_vl 2.0版本解读

samoyan的博客,记录技术成长~

08-06

4843

（还是internvl1.5）我们介绍了InternVL2，这是目前最强大的开源多模态大语言模型（MLLM）。InternVL2家族包括从适合边缘设备的1B模型到显著更强大的108B模型。通过更大规模的语言模型，InternVL2-Pro展示了出色的多模态理解能力，在各种基准测试中表现与商业闭源模型相当。

多模态大模型测试

最新发布

04-05

引用3提到了VLMEvalKit，这是一个开源的评估工具包，由Open Compass团队开发，支持一键式评估，适合多种任务场景。这可能是一个重要的工具，需要详细介绍一下。然后，引用2提到了多模态大模型的核心算法原理，比如...

训练VLM(视觉语言模型)的经验

AIBigModel的博客

10-21

1636

知乎：lym链接：https://zhuanlan.zhihu.com/p/890327005基于prompt确实不行（情况包括格式输出不稳定、格式输出基本不对、任务不完全会、任务完全不会等情况，难度逐渐加大），选择上SFT微调。业务场景基本用不到强化学习，强化解决的是最后一公里的问题，可以理解为有两种非常接近的输出（这两种输出都非常接近目标输出，此时已经解决了90%的问题），强化学习会对相同的输入，打压其中一种不希望的输出，同时增强另一种更接近目标的希望的输出（从DPO loss就可以看出）。

VLMEvalKit 开源项目教程

gitblog_01025的博客

08-23

624

VLMEvalKit 开源项目教程 VLMEvalKitOpen-source evaluation toolkit of large vision-language models (LVLMs), support GPT-4v, Gemini, QwenVLPlus, 50+ HF models, 20+ benchmarks项目地址:https://gitcode.com/gh_mirror...

2024！国内AI大模型平台哪家强？全方面测评来了

ytt0523_com的博客

06-05

7629

这篇仅是开坑哈，后面会持续更新的～主旨就是想要在滚滚浪潮中帮助AI开发者发现、汇聚到简单、好用的AI大模型平台&开发者社区上来，共建国内繁荣AIGC生态！！有些规模太小、不好用、吃相太难看（没几个模型就要走付费变现路子的）的平台我就先不放上来啦。

VLMEvalKit 开源项目指南

gitblog_00948的博客

08-23

593

VLMEvalKit 开源项目指南项目地址:https://gitcode.com/gh_mirrors/vl/VLMEvalKit 项目介绍 VLMEvalKit 是一个专为视觉语言模型（Visual Language Models, VLMs）设计的评估工具包。该项目由 Open Compass 团队开发维护，旨在提供一套高效、灵活的评估框架，以支持研究人员和开发者在多元视觉语言任务上的性...

X2-VLM 开源项目使用教程

gitblog_01168的博客

08-25

406

X2-VLM 开源项目使用教程 X2-VLMAll-In-One VLM: Image + Video + Transfer to Other Languages / Domains (TPAMI 2023)项目地址:https://gitcode.com/gh_mirrors/x2/X2-VLM 1. 项目的目录结构及介绍 X2-VLM 项目的目录结构如下： X2-VLM/ ├── READM...

X-VLM 开源项目使用教程

gitblog_01181的博客

08-16

397

X-VLM 开源项目使用教程 X-VLMX-VLM: Multi-Grained Vision Language Pre-Training (ICML 2022)项目地址:https://gitcode.com/gh_mirrors/xv/X-VLM 1. 项目的目录结构及介绍 X-VLM 项目的目录结构如下： X-VLM/ ├── configs/ │ ├── config1.yaml │...

VLM版o1超越一众开源和闭源模型！LLaVA-o1：多阶段自主推理（北大&清华&阿里等）

AIGCer的博客

11-19

2058

解决的问题当前视觉语言模型（VLMs）在处理复杂的视觉问答任务时，系统性和结构化推理能力较弱，尤其在多阶段推理任务中表现不佳。提出的方案引入LLaVA-o1，一个新型 VLM，采用自主的多阶段推理策略。与链式思维（chain-of-thought）提示不同，LLaVA-o1 将推理分为以下独立阶段：总结、视觉解释、逻辑推理和结论生成。应用的技术构建 LLaVA-o1-100k 数据集，整合多种视觉问答数据来源，提供结构化推理标注。

CogVLM/CogAgent环境搭建&推理测试

zzq1989_的专栏

04-30

1636

CogAgent-18B拥有110亿的视觉参数和70亿的语言参数, 支持1120*1120分辨率的图像理解。CogAgent-18B 在9个经典的跨模态基准测试中实现了最先进的通用性能，包括 VQAv2, OK-VQ, TextVQA, ST-VQA, ChartQA, infoVQA, DocVQA, MM-Vet, 和 POPE 测试基准。CogVLM-17B拥有100亿的视觉参数和70亿的语言参数，支持490*490分辨率的图像理解和多轮对话。OK，让我们开始吧。嗯哼，这么官方的语句，显然是我抄的。

视觉语言模型详解【VLM】