第一部分:OpenCompass基本知识
1.介绍
上海人工智能实验室科学家团队正式发布了大模型开源开放评测体系 “司南” (OpenCompass2.0),用于为大语言模型、多模态模型等提供一站式评测服务。开源可复现、全面的能力维度、丰富的模型支持、分布式高效评测、多样化评测范式、灵活化拓展。
2.评测研究
研究评测对全面了解大型语言模型的优势和限制至关重要,有助于指导和改进人类与大型语言模型之间的协同交互,研究评测可以帮助更好地规划大型语言模型未来的发展,并预防未知和潜在的风险,了解不同语言模型之间的性能、舒适性和安全性,能够帮助人们更好地选择适合的模型。
3.评测对象
基座模型、对话模型。
4.评测方法
客观评测、主观评测。
5.工具架构
第二部分:评测实战学习
通过当前大模型的能力评测背景、状况,评测的全面性,评测成本,数据方面的污染情况,鲁棒性入手了解OpenCompass司南评测体系开源历程,在评测大模型方面的优势与方法,评测全栈工具链在评测配置 -> 推理 -> 评估 -> 可视化阶段的理论、技术与实践。后面根据本部分实践学习OpenCompass2.0评测体系在大模型评测过程中使用的工具、方法、评测数据集等实操,加强掌握对模型能力进行综合评价的认识以及OpenCompass的作用。实战环境为:Cuda11.7-conda镜像,GPU 为10% A100,评测对象为internlm2-chat-1_8b模型。