evalscope-多模态自定义数据集评测(api)

evalscope支持选择题和问答题,两种预定义的数据集格式

选择题格式(MCQ)

适合用户是选择题的场景,评测指标为准确率(accuracy)。

  1. 数据准备

评测指标为准确率(accuracy),需要定义如下格式的tsv文件(使用`\t`分割)

index	category	answer	question	A	B	C	D	image_path
1	破损件	A	图片里是什么?	包裹	箱子	汽车	玩具	/home/alg/LMUData/images/custom_mcq/1.jpg
2	破损件	D	图片有什么?	包裹	箱子	汽车	玩具	/home/alg/LMUData/images/custom_mcq/1.jpg

其中:

  • index为问题序号
  • question为问题
  • answer为答案
  • ABCD为选项,不得少于两个选项
  • answer为答案选项
  • image_path为图片路径(建议使用绝对路径);也可替换为image字段,需为base64编码的图片
  • category为类别(可选字段)

将该文件放在`~/LMUData`路径中,即可使用文件名来进行评测。例如该文件名为`custom_mcq.tsv`,则使用`custom_mcq`即可评测

配置文件

配置文件,可以为`python dict`、`yaml`或`json`格式,例如如下`config.yaml`文件:

eval_backend: VLMEvalKit
eval_config:
  model:
    - type: Qwen2-VL-7B-Instruct-AWQ
      name: CustomAPIModel
      api_base: http://xx.xx.xx.xx:40105/v1/chat/completions
      key: EMPTY
      temperature: 0.0
      img_size: -1
  data:
       - custom_mcq
  mode: all
  limit: 10
  rerun: true
  work_dir: outputs
  nproc: 1

运行测评


from custom_dataset import CustomDataset
from evalscope.run import run_task

run_task(task_cfg='config_mcq.yaml')

执行结果

问答题格式(VQA)
  1. 数据准备
index	answer	question	image_path
1	盒子	图片里是什么?	/home/alg/LMUData/images/custom_mcq/1.jpg
2	包装	图片有什么?	/home/alg/LMUData/images/custom_mcq/2.jpg

 

该文件与选择题格式相同,其中:

  • index为问题序号
  • question为问题
  • answer为答案
  • image_path为图片路径(建议使用绝对路径);也可替换为image字段,需为base64编码的图片

将该文件放在`~/LMUData`路径中,即可使用文件名来进行评测。例如该文件名为`custom_vqa.tsv`,则使用`custom_vqa`即可评测。

  1. 自定义数据集

以下是一个自定义数据集的示例,该示例实现了一个自定义的问答题格式的评测脚本,该脚本会自动加载数据集,并使用默认的提示进行问答,最后计算准确率作为评测指标。

import os
import numpy as np
from vlmeval.dataset.image_base import ImageBaseDataset
from vlmeval.dataset.image_vqa import CustomVQADataset
from vlmeval.smp import load, dump, d2df

class CustomDataset:

    def load_data(self, dataset):
        # customize the loading of the dataset
        data_path = os.path.join("~/LMUData", f'{dataset}.tsv')
        print('加载数据集')
        return load(data_path)


    def build_prompt(self, line):
        msgs = ImageBaseDataset.build_prompt(self, line)
        # add a hint or custom instruction here
        msgs[-1]['value'] += '\n用简短的一个单词回答问题.'
        print(f"提示词:{msgs}")
        return msgs


    def evaluate(self, eval_file, **judge_kwargs):
        data = load(eval_file)
        assert 'answer' in data and 'prediction' in data
        data['prediction'] = [str(x) for x in data['prediction']]
        data['answer'] = [str(x).lower() for x in data['answer']]
        print('执行')

        print(data)
        # ========compute the evaluation metrics as you need =========
        # exact match
        result = np.mean(data['answer'] == data['prediction'])
        ret = {'Overall': result}
        ret = d2df(ret).round(2)

        # save the result
        suffix = eval_file.split('.')[-1]
        result_file = eval_file.replace(f'.{suffix}', '_acc.csv')
        dump(ret, result_file)
        return ret
        # ============================================================


# override the default dataset class
CustomVQADataset.load_data = CustomDataset.load_data
CustomVQADataset.build_prompt = CustomDataset.build_prompt
CustomVQADataset.evaluate = CustomDataset.evaluate

配置文件

eval_backend: VLMEvalKit
eval_config:
  model:
    - type: Qwen2-VL-7B-Instruct-AWQ
      name: CustomAPIModel
      api_base: http://10.199.27.156:40105/v1/chat/completions
      key: EMPTY
      temperature: 0.0
      img_size: -1
  data:
       - custom_vqa
  mode: all
  limit: 10
  rerun: true
  work_dir: outputs
  nproc: 1

执行测评


from custom_dataset import CustomDataset
from evalscope.run import run_task

run_task(task_cfg='config.yaml')

测试结果

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值