书生·浦语大模型第二期实战营（7）笔记

东东就是我

于 2024-04-23 18:20:29 发布

阅读量297

点赞数 2

分类专栏：浦语大模型文章标签：笔记

本文链接：https://blog.youkuaiyun.com/qq_33228039/article/details/138076467

版权

浦语大模型专栏收录该内容

12 篇文章

订阅专栏

本文介绍了对OpenCompass大模型的评测过程，包括挑战、评测方式、工具链使用、数据准备和具体测试命令，着重展示了Shanghai_AI_Laboratory的internlm2-chat-1_8b模型的安装和测试步骤。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

opencompass大模型评测

目的

在这里插入图片描述

挑战

在这里插入图片描述

历程

在这里插入图片描述

如何评价

在这里插入图片描述

评测方式

在这里插入图片描述

提示词工程

在这里插入图片描述

长文本评测

在这里插入图片描述

榜单

在这里插入图片描述

工具链

在这里插入图片描述

评测流程

在这里插入图片描述

工具链

在这里插入图片描述

多个检测

在这里插入图片描述

工具架构

在这里插入图片描述

安装

python run.py --datasets ceval_gen --hf-path /share/new_models/Shanghai_AI_Laboratory/internlm2-chat-1_8b --tokenizer-path /share/new_models/Shanghai_AI_Laboratory/internlm2-chat-1_8b --tokenizer-kwargs padding_side='left' truncation='left' trust_remote_code=True --model-kwargs trust_remote_code=True device_map='auto' --max-seq-len 1024 --max-out-len 16 --batch-size 2 --num-gpus 1 --debug

准备数据

cp /share/temp/datasets/OpenCompassData-core-20231110.zip /root/opencompass/
unzip OpenCompassData-core-20231110.zip

测试

python run.py --datasets ceval_gen --hf-path /share/new_models/Shanghai_AI_Laboratory/internlm2-chat-1_8b --tokenizer-path /share/new_models/Shanghai_AI_Laboratory/internlm2-chat-1_8b --tokenizer-kwargs padding_side='left' truncation='left' trust_remote_code=True --model-kwargs trust_remote_code=True device_map='auto' --max-seq-len 1024 --max-out-len 16 --batch-size 2 --num-gpus 1 --debug