上海人工智能实验室书生·浦语大模型基础岛关卡6-OpenCompass 评测 InternLM-1.8B 实践

1. 环境安装和数据准备

运行如下指令进行环境安装:

conda create -n opencompass python=3.10
conda activate opencompass
conda install pytorch==2.1.2 torchvision==0.16.2 torchaudio==2.1.2 pytorch-cuda=12.1 -c pytorch -c nvidia -y

# 注意:一定要先 cd /root
cd /root
git clone -b 0.2.4 https://github.com/open-compass/opencompass
cd opencompass
pip install -e .


apt-get update
apt-get install cmake
pip install -r requirements.txt
pip install protobuf

运行以下指令解压评测数据集到 /root/opencompass/data/ 处:

cp /share/temp/datasets/OpenCompassData-core-20231110.zip /root/opencompass/
unzip OpenCompassData-core-20231110.zip

解压指令的部分输出截图如下所示:

输入以下指令列出所有跟 InternLM 及 C-Eval 相关的配置:

python tools/list_configs.py internlm ceval

程序输出截图如下:

2. 启动评测

打开 opencompass文件夹下configs/models/hf_internlm/的hf_internlm2_chat_1_8b.py ,输入指定代码截图如下所示:

输入以下指令评测 InternLM2-Chat-1.8B 模型在 C-Eval 数据集上的性能:

#环境变量配置
export MKL_SERVICE_FORCE_INTEL=1
python run.py --datasets ceval_gen --models hf_internlm2_chat_1_8b --debug

运行结果如下所示:

08/31 11:42:34 - OpenCompass - INFO - time elapsed: 13944.92s
08/31 11:42:39 - OpenCompass - INFO - Partitioned into 52 tasks.
08/31 11:42:42 - OpenCompass - INFO - Task [internlm2-1.8b-hf/ceval-computer_network]: {'accuracy': 47.371421052631575}
08/31 11:42:44 - OpenCompass - INFO - Task [internlm2-1.8b-hf/ceval-operating_system]: {'accuracy': 47.364421052631575}
08/31 11:42:46 - OpenCompass - INFO - Task [internlm2-1.8b-hf/ceval-computer_architecture]: {'accuracy': 23.799523809523807}
08/31 11:42:48 - OpenCompass - INFO - Task [internlm2-1.8b-hf/ceval-college_programming]: {'accuracy': 27.019027027027028}
08/31 11:42:50 - OpenCompass - INFO - Task [internlm2-1.8b-hf/ceval-college_physics]: {'accuracy': 42.09526315789473}
08/31 11:42:52 - OpenCompass - INFO - Task [internlm2-1.8b-hf/ceval-college_chemistry]: {'accuracy': 37.5}
08/31 11:42:54 - OpenCompass - INFO - Task [internlm2-1.8b-hf/ceval-advanced_mathematics]: {'accuracy': 26.31578947368421}
08/31 11:42:56 - OpenCompass - INFO - Task [internlm2-1.8b-hf/ceval-probability_and_statistics]: {'accuracy': 22.22222222222222}
08/31 11:42:58 - Op
### 关于书生·浦语大模型 书生·浦语是由上海人工智能实验室推出的大规模预训练语言模型,其设计目标是在多个自然语言处理任务上表现出卓越性能的同时保持高效性和易用性[^1]。该模型不仅支持多种应用场景下的开箱即用功能,还提供了灵活的微调能力以适应特定需求。 #### 模型使用方法 为了使用书生·浦语大模型,可以通过指定 `local_llm_path` 参数加载本地已有的模型文件或者通过提供 Hugging Face 平台上的模型名称来自动下载并加载远程模型。例如可以使用的模型名有 `"internlm/internlm2-chat-7b"` 或者 `"internlm/internlm2-chat-20b"` 等。此外,在实际部署前需确保设置合理的参数如 `local_llm_max_text_length` 来控制输入的最大长度以便优化运行效率和效果。 对于初次使用者来说,准备环境的第一步可能涉及创建目录结构以及复制预先获取到的模型仓库至相应位置的操作命令如下所示: ```bash mkdir -p /root/model/Shanghai_AI_Laboratory && \ cp -r /root/share/temp/model_repos/internlm-chat-7b /root/model/Shanghai_AI_Laboratory/ ``` 上述脚本片段展示了如何构建存储路径并将 internlm-chat-7b 版本的具体实现迁移过去的过程[^2]。 #### 微调与扩展支持 值得一提的是,除了基础的服务外,书生·浦语也兼容其他主流框架内的调整流程和技术方案,比如但不限于 InternLM, Llama, Qwen (通义千问), BaiChuan 及 ChatGLM 这些知名系列的产品线均被纳入考虑范围之内;并且能够很好地融入像 HuggingFace 和 ModelScope 那样的开放生态系统之中去寻找更多可能性[^3]。 另外值得注意的一点在于围绕着这些先进工具所建立起来的标准评估机制同样值得称赞——它由国内权威机构主导制定而成,并得到了国际巨头 Meta 的正式背书成为唯一推荐给用户的本土化考核标准之一,涵盖了上百套测试集合总计五十多万道试题用于全面衡量各项指标表现情况[^4]。 ### 提供的相关资源链接 虽然这里无法直接给出具体的文档地址或安装包下载连接,但是可以根据前面提到的信息自行前往官方网站查询最新版本资料详情页面获取进一步指导说明材料。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值