OpenCompass 介绍
OpenCompass 是一个面向大模型评测的一站式开源平台,由上海人工智能实验室研发推出。它主要由三大核心模块构建而成:CompassKit、CompassHub 以及 CompassRank。其中,CompassKit 提供丰富的评测基准和模型模板;CompassHub 是一个基准社区,用于发布和分享评测基准和排行榜;CompassRank 则提供全面、客观、中立的分数和排名。
OpenCompass 主要具有以下几个特点:
开源可复现:OpenCompass 可以为研究者们提供公平、公开、可复现的大模型评测方案
全面的能力维度:它盖八个维度,提供 100+ 个数据集约 40 万题的模型评测方案,可以更加全面地评估模型能力
丰富的模型支持:OpenCompass 平台广泛支持 40+ HuggingFace 及 API 模型
分布式高效评测:一行命令即可实现任务分割和分布式评测,数小时即可完成千亿模型全量评测
多样化评测范式:支持零样本、小样本及思维链评测,结合标准型或对话型提示词模板,轻松激发各种模型的最大性能
灵活化拓展:可以轻松扩展新模型或数据集、自定义更高级的任务分割策略,甚至接入新的集群管理系统
OpenCompass 评测体系目前已经广泛应用于大模型头部企业和科研机构,是唯一一个获得 Meta 官方推荐的国产大模型评测体系,同时也是开源社区最完善的评测体系之一。
OpenCompass 提供了 API 模式评测和本地直接评测两种方式。其中 API 模式评测针对那些以 API 服务形式部署的模型,而本地直接评测则面向那些可以获取到模型权重文件的情况。
基础任务:
1 API 模式评测
创建虚拟环境并安装相关依赖
conda create -n opencompass python=3.10
conda activate opencompass
cd /root
git clone -b 0.3.3 https://github.com/open-compass/opencompass
cd opencompass
pip install -e .
pip install -r requirements.txt
pip install huggingface_hub==0.25.2
评测通过 API 访问的大语言模型的过程很简单,首先我们需要获取模型的 API Key 和接口地址,然后在评测配置文件中设置好密钥和相应的模型参数就可以开始评测了。评测过程中,评测框架会自动向模型服务发送测试用例,获取模型的回复并进行打分分析。整个过程我们不需要准备任何模型文件,也不用担心本地计算资源是否足够,只要确保网络连接正常即可。
获取到 API Key 之后在开发机终端运行如下命令:
export INTERNLM_API_KEY=xxxxxxxxxxxxxxxxxxxxxxx # 填入你申请的 API Key
这条命令会将你的 API Key 设置成环境变量,后续程序中需要使用 API Key 时可以通过直接调用环境变量获得,这样可以避免你的 API Key 在程序中显式出现,降低 API Key 泄露的风险
在终端运行下面命令,创建一个模型配置文件:
cd /root/opencompass/
touch opencompass/configs/models/openai/puyu_api.py
完成上述两步后还需要配置一下数据集,先在终端运行:
cd /root/opencompass/
touch opencompass/configs/datasets/demo/demo_cmmlu_chat_gen.py
创建好数据集配置文件后在该文件中贴入如下代码:
from mmengine import read_base
with read_base():
from …cmmlu.cmmlu_gen_c13365 import cmmlu_datasets
#每个数据集只取前2个样本进行评测
for d in cmmlu_datasets:
d[‘abbr’] = ‘demo_’ + d[‘abbr’]
d[‘reader_cfg’][‘test_range’] = ‘[0:1]’ # 这里每个数据集只取1个样本, 方便快速评测.
至此我们的准备工作就完成了,接下来在终端运行下面这行命令就能启动评测了。
评测结果如下:


2 本地直接测评
环境配置和数据准备
如果想要评测本地部署的模型,首先需要获取到完整的模型权重文件,然后在评测配置文件中指定模型路径和相关参数,评测框架就会自动加载模型并开始评测。这种评测

最低0.47元/天 解锁文章
923

被折叠的 条评论
为什么被折叠?



