【LLM之评测】opencompass使用自定义接口与自定义数据集进行评测

🛠️ 安装指南

版本:0.3.7

下面提供了快速安装和数据集准备的步骤。

💻 环境搭建

强烈建议使用 conda 来管理您的 Python 环境。

  • 创建虚拟环境
    conda create --name opencompass python=3.10 -y
    conda activate opencompass
    
  • 通过pip安装OpenCompass
    # 支持绝大多数数据集及模型
    pip install -U opencompass
    
    # 完整安装(支持更多数据集)
    # pip install "opencompass[full]"
    
    # 模型推理后端,由于这些推理后端通常存在依赖冲突,建议使用不同的虚拟环境来管理它们。
    # pip install "opencompass[lmdeploy]"
    # pip install "opencompass[vllm]"
    
    # API 测试(例如 OpenAI、Qwen)
    # pip install "opencompass[api]"
    

📂 数据准备

提前离线下载

OpenCompass支持使用本地数据集进行评测,数据集的下载和解压可以通过以下命令完成:

# 下载数据集到 data/ 处
wget https://github.com/open-compass/opencompass/releases/download/0.2.2.rc1/OpenCompassData-core-20240207.zip
unzip OpenCompassData-core-20240207.zip

使用本地机器vllm部署的qwen api测试ceval

由于兼容openai接口,因此使用openai接口的测试脚本,修改对应的key以及url地址即可。在config下新建一个脚本,用opencompass运行即可。

from mmengine.config import read_base
from
### OpenCompass SuperCLUE 使用指南 #### 什么是SuperCLUE? SuperCLUE是一个面向中文自然语言处理任务的大规模预训练模型评估平台,旨在提供全面、公平、透明的评测标准。通过集成多种类型的下游任务,SuperCLUE能够衡量不同模型在理解和生成高质量汉语文本方面的能力[^1]。 #### 如何获取OpenCompass SuperCLUE? 为了方便研究人员访问和测试最新的研究成果,OpenCompass团队已经开源了SuperCLUE项目。用户可以通过GitHub仓库下载源码以及相关资源文件: ```bash git clone https://github.com/OpenCompass/SuperCLUE.git cd SuperCLUE pip install -r requirements.txt ``` 上述命令会克隆整个仓库并将依赖项安装到本地环境中[^2]。 #### 数据集准备 SuperCLUE涵盖了广泛的任务类别,包括但不限于分类、匹配、问答等。针对每一种特定任务类型,官方提供了相应格式的数据样本供开发者参考。通常情况下,数据会被划分为训练集、验证集和测试集三个部分。使用者可以根据实际需求调整这些划分比例或者自定义新的分割方式[^3]。 #### 模型微调流程 当准备好必要的环境配置之后,下一步就是利用给定的数据来优化目标模型的表现力。这里给出一段简单的Python脚本作为示范,展示了如何加载预训练权重并对指定任务实施进一步的学习过程: ```python from transformers import AutoTokenizer, AutoModelForSequenceClassification import torch tokenizer = AutoTokenizer.from_pretrained('path_to_model') model = AutoModelForSequenceClassification.from_pretrained('path_to_model') # 假设我们正在处理情感分析任务 train_dataset = ... # 加载训练数据 val_dataset = ... # 加载验证数据 training_args = TrainingArguments( output_dir='./results', num_train_epochs=3, per_device_train_batch_size=8, per_device_eval_batch_size=8, warmup_steps=500, weight_decay=0.01, logging_dir='./logs', ) trainer = Trainer( model=model, args=training_args, train_dataset=train_dataset, eval_dataset=val_dataset, ) trainer.train() ``` 这段代码片段说明了怎样设置超参数并通过`Trainer`类来进行有效的监督学习操作[^4]。 #### 性能评估机制 完成一轮完整的迭代更新后,应当及时检验改进效果的好坏程度。为此,SuperCLUE内置了一系列自动化工具用于计算各类评价指标,比如准确率(Accuracy)、F1分数(F1 Score)等等。此外,还支持可视化功能以便直观展示实验成果的变化趋势图象化界面[^5]。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值