大模型评测体系一览图

大模型评测有许多需要环节要处理,这里做一个简单的梳理。按照整个评测的流程去思考,完成下面的一览图。

在大模型评测过程中首先明确的是评测目的,在之前提过比较常见情形,比如大模型研发人员、使用者和评测机构他们关注的方向不同,导致评测的目的也不一样。确定评测目的,就基本可以确定评测的范围,是做全面评估还是做特定场景的验证。选择做评测的大模型不同(通用的、垂直的还是其他)评测的方向也不同。确定评测的方向时,关注的是哪些能力哪些性能,针对关注的内容确定评测的指标。再之后就是确定能考察这些指标的数据集以及如何搭建评环境。这时候可能需要思考使用自建环境自建数据,还是使用评测平台的环境及数据,主要看手上资源及一些策略要求,两种选择各有优势。然后是确定评测分数的计算方式,这里和策略倾向,模型选择,关注内容有很大关系。

准备工作完成了,自建数据要开始做数据的清洗、标注等工作。然后开始做评测执行,执行中保证环境一致、保证数据分布合理、保证环境异常及时处理等等。拿到评测结果分值后做分析对比。最后是结果的呈现。

图中体现的是主要的方向和内容,细节还需要补充。作为整个评测体系的流程以供参考。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值