我们如何评估LLM?
首先,让我们统一一些定义。目前,评估LLM主要有三种方法:自动基准测试、使用人工评审以及使用模型作为评审。这三种方法各有其存在的理由、用途和局限性。
基准测试
自动基准测试通常包括以下步骤:确定模型在某项任务上的表现,如分类垃圾邮件与非垃圾邮件,或评估模型的数学能力。评估通常由两部分组成:
- 样本集合:这些样本作为输入提供给模型,观察输出结果,并有时与参考答案(黄金答案)进行比较。样本设计旨在模拟待测任务,例如创建包含难分类案例的垃圾邮件数据集。
- 评估指标:用于计算模型得分,例如分类准确率。
基准测试在定义明确、易于测量的任务中表现良好,例如一些选择题任务,分类任务。但在评估更抽象的能力(如“数学能力”)时,分解成具体任务变得困难。此外,公开的基准数据集可能会被模型训练时意外包含,导致“污染”,影响评估的公正性。
人工评审
使用人工评审可以解决数据污染和开放式任务评估的问题。常见的方法包括:
- 感受检查(Vibes-checks):社区成员在未公开的提示下评估模型,获得整体感觉。这种方法多为轶事性证据,容易受到确认偏误影响。
- 竞技场(Arena):通过社区用户对模型进行对战,使用Elo排名系统进行评分。这种方法主观性较高,但通过大量投票可以平衡个体偏见。
- 系统化注释:由付费评审员根据严格指南进行评分,尽量减少主观偏差。然而,这种方法成本高昂,且仍可能受到人类偏见影响。
近期研究表明,人工评审员往往基于第一印象而非事实准确性进行评分,导致对自信但错误的回答评分较高。因此,对于需要高事实性的任务,应结合其他评估方法。
模型评审
为降低人工评审成本,一些研究尝试使用模型或其衍生物作为评审。这种方法有以下两种:
- 通用高能力模型:与人类偏好高度相关,但通常为闭源且难以解释。
- 专用小模型:专门训练用于区分偏好数据,较少引入不可解释的偏差。
然而,模型评审存在自身局限,如倾向于偏好自身输出、评分范围不一致且与人类排名不完全一致。此外,使用模型作为评审可能会在模型选择和训练过程中引入微妙且难以察觉的偏差。
为什么要进行LLM评估?
评估LLM主要有三个目的,常被混淆但实际回答不同的问题:
-
模型训练是否正常?(非回归测试)
确保训练方法合理,评估指标轨迹和范围符合预期,而不关心具体分数。 -
哪种模型最好?(排行榜和排名)
通过排行榜识别最佳模型,帮助选择适合特定用途的模型。然而,目前排行榜的稳定性和一致性仍有待提高。 -
当前领域的模型能力处于什么水平?(能力评估)
了解模型是否具备某项能力,但由于缺乏明确的定义和框架,这一评估仍然困难。