书生·浦语大模型第二期实战营第七节-OpenCompass 大模型评测实战 笔记和作业
于 2024-04-24 19:36:16 首次发布
本文探讨了如何通过OpenCompass进行大模型的能力评测,包括拓展能力维度、聚焦垂直行业、中文基准以及评测中的挑战,如全面性、成本、数据污染和鲁棒性。同时还介绍了几种评测基准工具和解决protobuf错误的方法。
本文探讨了如何通过OpenCompass进行大模型的能力评测,包括拓展能力维度、聚焦垂直行业、中文基准以及评测中的挑战,如全面性、成本、数据污染和鲁棒性。同时还介绍了几种评测基准工具和解决protobuf错误的方法。

被折叠的 条评论
为什么被折叠?