基础任务1
任务要求
使用 OpenCompass 评测浦语 API 记录复现过程并截图。
任务结果
代码如下:
import os
from opencompass.models import OpenAISDK
internlm_url = "https://internlm-chat.intern-ai.org.cn/puyu/api/v1/"
internlm_api_key = ""
models = [
dict(
# abbr='internlm2.5-latest',
type=OpenAISDK,
path='internlm2.5-latest', # 请求服务时的 model name
# 换成自己申请的APIkey
key=internlm_api_key, # API key
openai_api_base=internlm_url, # 服务地址
rpm_verbose=True, # 是否打印请求速率
query_per_second=0.16, # 服务请求速率
max_out_len=1024, # 最大输出长度
max_seq_len=4096, # 最大输入长度
temperature=0.01, # 生成温度
batch_size=1, # 批处理大小
retry=3, # 重试次数
)
]
使用CMMLU Benchmark
进行测评
python run.py --models puyu_api.py --datasets demo_cmmlu_chat_gen.py --debug
运行结果如下:
评测结果如下:
基础任务2
任务要求
使用 OpenCompass 评测 internlm2.5-chat-1.8b 模型在 ceval 数据集上的性能,记录复现过程并截图。
任务结果
修改hf_internlm2_5_1_8b_chat.py
文件
运行如下命令使用ceval进行测评:
python run.py --datasets ceval_gen --models hf_internlm2_5_1_8b_chat --debug
进阶任务1
任务要求
使用 OpenCompass 进行主观评测
任务结果
创建opencompass/configs/eval_tutorial_demo.py
,指定数据集进行主观评测
评测数据集:
python run.py configs/eval_tutorial_demo.py --debug
结果如下:
进阶任务2
任务要求
使用 OpenCompass 评测 InternLM2-Chat-1.8B 模型使用 LMDeploy部署后在 ceval 数据集上的性能
任务结果
开启lmdeploy服务
lmdeploy serve api_server /share/new_models/Shanghai_AI_Laboratory/internlm2_5-1_8b-chat/ --server-port 23333
使用下列代码获取model的id
from openai import OpenAI
client = OpenAI(
api_key='sk-123456', # 可以设置成随意的字符串
base_url="http://0.0.0.0:23333/v1"
)
model_name = client.models.list().data[0].id
print(model_name)
运行代码:
使用下列代码测评模型:
from opencompass.models import OpenAI
api_meta_template = dict(round=[
dict(role='HUMAN', api_role='HUMAN'),
dict(role='BOT', api_role='BOT', generate=True),
])
models = [
dict(
abbr='InternLM-2.5-1.8B-Chat',
type=OpenAI,
path='/share/new_models/Shanghai_AI_Laboratory/internlm2_5-1_8b-chat/', # 注册的模型名称
key='sk-123456',
openai_api_base='http://0.0.0.0:23333/v1/chat/completions',
meta_template=api_meta_template,
query_per_second=1,
max_out_len=2048,
max_seq_len=4096,
batch_size=8),
]
运行代码,结果如下: