evalscope支持选择题和问答题,两种预定义的数据集格式
选择题格式(MCQ)
适合用户是选择题的场景,评测指标为准确率(accuracy)。
- 数据准备
评测指标为准确率(accuracy),需要定义如下格式的tsv文件(使用`\t`分割)
index category answer question A B C D image_path
1 破损件 A 图片里是什么? 包裹 箱子 汽车 玩具 /home/alg/LMUData/images/custom_mcq/1.jpg
2 破损件 D 图片有什么? 包裹 箱子 汽车 玩具 /home/alg/LMUData/images/custom_mcq/1.jpg
其中:
index
为问题序号question
为问题answer
为答案A
、B
、C
、D
为选项,不得少于两个选项answer
为答案选项image_path
为图片路径(建议使用绝对路径);也可替换为image
字段,需为base64编码的图片category
为类别(可选字段)
将该文件放在`~/LMUData`路径中,即可使用文件名来进行评测。例如该文件名为`custom_mcq.tsv`,则使用`custom_mcq`即可评测
配置文件
配置文件,可以为`python dict`、`yaml`或`json`格式,例如如下`config.yaml`文件:
eval_backend: VLMEvalKit
eval_config:
model:
- type: Qwen2-VL-7B-Instruct-AWQ
name: CustomAPIModel
api_base: http://xx.xx.xx.xx:40105/v1/chat/completions
key: EMPTY
temperature: 0.0
img_size: -1
data:
- custom_mcq
mode: all
limit: 10
rerun: true
work_dir: outputs
nproc: 1
运行测评
from custom_dataset import CustomDataset
from evalscope.run import run_task
run_task(task_cfg='config_mcq.yaml')
执行结果
问答题格式(VQA)
- 数据准备
index answer question image_path
1 盒子 图片里是什么? /home/alg/LMUData/images/custom_mcq/1.jpg
2 包装 图片有什么? /home/alg/LMUData/images/custom_mcq/2.jpg
该文件与选择题格式相同,其中:
index
为问题序号question
为问题answer
为答案image_path
为图片路径(建议使用绝对路径);也可替换为image
字段,需为base64编码的图片
将该文件放在`~/LMUData`路径中,即可使用文件名来进行评测。例如该文件名为`custom_vqa.tsv`,则使用`custom_vqa`即可评测。
- 自定义数据集
以下是一个自定义数据集的示例,该示例实现了一个自定义的问答题格式的评测脚本,该脚本会自动加载数据集,并使用默认的提示进行问答,最后计算准确率作为评测指标。
import os
import numpy as np
from vlmeval.dataset.image_base import ImageBaseDataset
from vlmeval.dataset.image_vqa import CustomVQADataset
from vlmeval.smp import load, dump, d2df
class CustomDataset:
def load_data(self, dataset):
# customize the loading of the dataset
data_path = os.path.join("~/LMUData", f'{dataset}.tsv')
print('加载数据集')
return load(data_path)
def build_prompt(self, line):
msgs = ImageBaseDataset.build_prompt(self, line)
# add a hint or custom instruction here
msgs[-1]['value'] += '\n用简短的一个单词回答问题.'
print(f"提示词:{msgs}")
return msgs
def evaluate(self, eval_file, **judge_kwargs):
data = load(eval_file)
assert 'answer' in data and 'prediction' in data
data['prediction'] = [str(x) for x in data['prediction']]
data['answer'] = [str(x).lower() for x in data['answer']]
print('执行')
print(data)
# ========compute the evaluation metrics as you need =========
# exact match
result = np.mean(data['answer'] == data['prediction'])
ret = {'Overall': result}
ret = d2df(ret).round(2)
# save the result
suffix = eval_file.split('.')[-1]
result_file = eval_file.replace(f'.{suffix}', '_acc.csv')
dump(ret, result_file)
return ret
# ============================================================
# override the default dataset class
CustomVQADataset.load_data = CustomDataset.load_data
CustomVQADataset.build_prompt = CustomDataset.build_prompt
CustomVQADataset.evaluate = CustomDataset.evaluate
配置文件
eval_backend: VLMEvalKit
eval_config:
model:
- type: Qwen2-VL-7B-Instruct-AWQ
name: CustomAPIModel
api_base: http://10.199.27.156:40105/v1/chat/completions
key: EMPTY
temperature: 0.0
img_size: -1
data:
- custom_vqa
mode: all
limit: 10
rerun: true
work_dir: outputs
nproc: 1
执行测评
from custom_dataset import CustomDataset
from evalscope.run import run_task
run_task(task_cfg='config.yaml')
测试结果