书生第四期实训营基础岛——L1G6000 OpenCompass 评测书生大模型实践

最新推荐文章于 2025-05-01 21:42:17 发布

Kstheme

最新推荐文章于 2025-05-01 21:42:17 发布

阅读量216

点赞数 1

分类专栏：书生实训营文章标签：人工智能

本文链接：https://blog.youkuaiyun.com/kstheme/article/details/143597019

版权

书生实训营专栏收录该内容

8 篇文章

订阅专栏

基础任务1

任务要求

使用 OpenCompass 评测浦语 API 记录复现过程并截图。

任务结果

代码如下:

import os
from opencompass.models import OpenAISDK

internlm_url = "https://internlm-chat.intern-ai.org.cn/puyu/api/v1/"
internlm_api_key = ""

models = [
    dict(
        # abbr='internlm2.5-latest',
        type=OpenAISDK,
        path='internlm2.5-latest', # 请求服务时的 model name
        # 换成自己申请的APIkey
        key=internlm_api_key, # API key
        openai_api_base=internlm_url, # 服务地址
        rpm_verbose=True, # 是否打印请求速率
        query_per_second=0.16, # 服务请求速率
        max_out_len=1024, # 最大输出长度
        max_seq_len=4096, # 最大输入长度
        temperature=0.01, # 生成温度
        batch_size=1, # 批处理大小
        retry=3, # 重试次数
    )
]

使用CMMLU Benchmark进行测评

python run.py --models puyu_api.py --datasets demo_cmmlu_chat_gen.py --debug

运行结果如下：
在这里插入图片描述
评测结果如下：

基础任务2

任务要求

使用 OpenCompass 评测 internlm2.5-chat-1.8b 模型在 ceval 数据集上的性能，记录复现过程并截图。

任务结果

修改hf_internlm2_5_1_8b_chat.py文件
在这里插入图片描述
运行如下命令使用ceval进行测评：

python run.py --datasets ceval_gen --models hf_internlm2_5_1_8b_chat --debug

在这里插入图片描述

进阶任务1

任务要求

使用 OpenCompass 进行主观评测

任务结果

创建opencompass/configs/eval_tutorial_demo.py，指定数据集进行主观评测
在这里插入图片描述
评测数据集：

python run.py configs/eval_tutorial_demo.py --debug

结果如下：
在这里插入图片描述

进阶任务2

任务要求

使用 OpenCompass 评测 InternLM2-Chat-1.8B 模型使用 LMDeploy部署后在 ceval 数据集上的性能

任务结果

开启lmdeploy服务

lmdeploy serve api_server /share/new_models/Shanghai_AI_Laboratory/internlm2_5-1_8b-chat/ --server-port 23333

在这里插入图片描述

使用下列代码获取model的id

from openai import OpenAI
client = OpenAI(
    api_key='sk-123456', # 可以设置成随意的字符串
    base_url="http://0.0.0.0:23333/v1"
)
model_name = client.models.list().data[0].id
print(model_name)

运行代码：
在这里插入图片描述
使用下列代码测评模型：

from opencompass.models import OpenAI

api_meta_template = dict(round=[
    dict(role='HUMAN', api_role='HUMAN'),
    dict(role='BOT', api_role='BOT', generate=True),
])

models = [
    dict(
        abbr='InternLM-2.5-1.8B-Chat',
        type=OpenAI,
        path='/share/new_models/Shanghai_AI_Laboratory/internlm2_5-1_8b-chat/', # 注册的模型名称
        key='sk-123456',
        openai_api_base='http://0.0.0.0:23333/v1/chat/completions', 
        meta_template=api_meta_template,
        query_per_second=1,
        max_out_len=2048,
        max_seq_len=4096,
        batch_size=8),
]