创建用于评测 conda 环境,并安装相关包
配置相关api_key
这里每个数据集只取1个样本, 方便快速评测.
CMMLU Benchmark 的每个子数据集的 1 个样本进行评测.得到结果
解压数据集的内容
python tools/list_configs.py internlm ceval
开始评测的漫长过程
完成最终评测并显示结果
创建用于评测 conda 环境,并安装相关包
配置相关api_key
这里每个数据集只取1个样本, 方便快速评测.
CMMLU Benchmark 的每个子数据集的 1 个样本进行评测.得到结果
解压数据集的内容
python tools/list_configs.py internlm ceval
开始评测的漫长过程
完成最终评测并显示结果