书生第四期实训营基础岛——L1G6000 OpenCompass 评测书生大模型实践

基础任务1

任务要求

使用 OpenCompass 评测浦语 API 记录复现过程并截图。

任务结果

代码如下:

import os
from opencompass.models import OpenAISDK

internlm_url = "https://internlm-chat.intern-ai.org.cn/puyu/api/v1/"
internlm_api_key = ""

models = [
    dict(
        # abbr='internlm2.5-latest',
        type=OpenAISDK,
        path='internlm2.5-latest', # 请求服务时的 model name
        # 换成自己申请的APIkey
        key=internlm_api_key, # API key
        openai_api_base=internlm_url, # 服务地址
        rpm_verbose=True, # 是否打印请求速率
        query_per_second=0.16, # 服务请求速率
        max_out_len=1024, # 最大输出长度
        max_seq_len=4096, # 最大输入长度
        temperature=0.01, # 生成温度
        batch_size=1, # 批处理大小
        retry=3, # 重试次数
    )
]

使用CMMLU Benchmark进行测评

python run.py --models puyu_api.py --datasets demo_cmmlu_chat_gen.py --debug

运行结果如下:
在这里插入图片描述
评测结果如下:
在这里插入图片描述

基础任务2

任务要求

使用 OpenCompass 评测 internlm2.5-chat-1.8b 模型在 ceval 数据集上的性能,记录复现过程并截图。

任务结果

修改hf_internlm2_5_1_8b_chat.py文件
在这里插入图片描述
运行如下命令使用ceval进行测评:

python run.py --datasets ceval_gen --models hf_internlm2_5_1_8b_chat --debug

在这里插入图片描述
在这里插入图片描述

进阶任务1

任务要求

使用 OpenCompass 进行主观评测

任务结果

创建opencompass/configs/eval_tutorial_demo.py,指定数据集进行主观评测
在这里插入图片描述
评测数据集:

python run.py configs/eval_tutorial_demo.py --debug

结果如下:
在这里插入图片描述
在这里插入图片描述

进阶任务2

任务要求

使用 OpenCompass 评测 InternLM2-Chat-1.8B 模型使用 LMDeploy部署后在 ceval 数据集上的性能

任务结果

开启lmdeploy服务

lmdeploy serve api_server /share/new_models/Shanghai_AI_Laboratory/internlm2_5-1_8b-chat/ --server-port 23333

在这里插入图片描述

使用下列代码获取model的id

from openai import OpenAI
client = OpenAI(
    api_key='sk-123456', # 可以设置成随意的字符串
    base_url="http://0.0.0.0:23333/v1"
)
model_name = client.models.list().data[0].id
print(model_name)

运行代码:
在这里插入图片描述
使用下列代码测评模型:

from opencompass.models import OpenAI

api_meta_template = dict(round=[
    dict(role='HUMAN', api_role='HUMAN'),
    dict(role='BOT', api_role='BOT', generate=True),
])

models = [
    dict(
        abbr='InternLM-2.5-1.8B-Chat',
        type=OpenAI,
        path='/share/new_models/Shanghai_AI_Laboratory/internlm2_5-1_8b-chat/', # 注册的模型名称
        key='sk-123456',
        openai_api_base='http://0.0.0.0:23333/v1/chat/completions', 
        meta_template=api_meta_template,
        query_per_second=1,
        max_out_len=2048,
        max_seq_len=4096,
        batch_size=8),
]

运行代码,结果如下:
在这里插入图片描述
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值