在人工智能领域,大语言模型已经成为了技术创新的重要驱动力。为了更好地评估和提升大模型的性能,上海人工智能实验室研发推出了 OpenCompass 司南大模型开源评测体系。该体系是面向大语言模型、多模态大模型等各类模型的一站式评测平台。
OpenCompass 司南大模型评测体系概览
OpenCompass 的主要特点包括开源可复现、全面的能力维度、丰富的模型支持、分布式高效评测、多样化评测范式以及灵活化拓展。基于高质量、多层次的能力体系和工具链,OpenCompass 创新了多项能力评测方法,并构建了一套高质量的中英文双语评测基准,涵盖语言与理解、常识与逻辑推理、数学计算与应用、多编程语言代码能力、智能体、创作与对话等多个方面,能够实现对大模型真实能力的全面诊断。
OpenCompass 大模型评测“铁三角”
基于能力体系和工具链,OpenCompass 构建了一套高质量的中英文双语评测基准,涵盖语言与理解、常识与逻辑推理、数学计算与应用、多编程语言代码能力、智能体、创作与对话等多个方面对大模型进行评测分析。通过高质量、多层次的综合性能力评测基准,创新了多项能力评测方法,实现了对模型真实能力的全面诊断。

评测工具链体系 CompassKit
OpenCompass 推出大模型评测全栈工具链 CompassKit,不仅提供完整的开源可复现评测代码,更提供了丰富的模型支持和高效的分布式评测策略。
CompassKit 工具链地址:https://github.com/open-compass
CompassKit 中包含:
•

最低0.47元/天 解锁文章
1074

被折叠的 条评论
为什么被折叠?



