大模型评测体系一览图

原创已于 2025-01-23 18:53:51 修改 · 1k 阅读

3 ·

CC 4.0 BY-SA版权

文章标签：

#语言模型 #机器学习

于 2025-01-23 18:49:18 首次发布

大模型评测有许多需要环节要处理，这里做一个简单的梳理。按照整个评测的流程去思考，完成下面的一览图。

在大模型评测过程中首先明确的是评测目的，在之前提过比较常见情形，比如大模型研发人员、使用者和评测机构他们关注的方向不同，导致评测的目的也不一样。确定评测目的，就基本可以确定评测的范围，是做全面评估还是做特定场景的验证。选择做评测的大模型不同（通用的、垂直的还是其他）评测的方向也不同。确定评测的方向时，关注的是哪些能力哪些性能，针对关注的内容确定评测的指标。再之后就是确定能考察这些指标的数据集以及如何搭建评环境。这时候可能需要思考使用自建环境自建数据，还是使用评测平台的环境及数据，主要看手上资源及一些策略要求，两种选择各有优势。然后是确定评测分数的计算方式，这里和策略倾向，模型选择，关注内容有很大关系。

准备工作完成了，自建数据要开始做数据的清洗、标注等工作。然后开始做评测执行，执行中保证环境一致、保证数据分布合理、保证环境异常及时处理等等。拿到评测结果分值后做分析对比。最后是结果的呈现。