今天这堂课,我们聚焦一个关键问题——如何鉴定大型语言模型的能力。现在每隔一段时间就有新的大模型推出,几乎每个模型都宣称“接近GPT-4”,但到底怎么判断它们的真实水平?今天我们就从“评估逻辑”“具体方法”“潜在陷阱”三个维度,把这件事讲透。
一、评估的核心逻辑:输入、输出与标准答案的比对
不管是语言模型还是其他AI模型,评估的底层逻辑其实很简单:
你准备一批“输入”,再准备这些输入对应的“标准答案”,给两个要对比的模型(比如A和B)喂同样的输入,看它们的输出和标准答案有多吻合——吻合度高的,能力就更强。
这里的“输入+标准答案”组合,就是我们常说的Benchmark(基准测试集)。平时大家说“模型要跑Benchmark”,意思就是把模型放在公认的测试集上,看它比其他模型表现如何。
但这个逻辑听起来简单,实际操作时问题可不少——尤其是语言模型的输出是“开放式”的,不像数学题只有唯一解,这就让“判断对错”变得非常有挑战。
二、看似有标准答案,实则坑很多
既然开放式输出难评估,那我们先从“有标准答案”的选择题入手。目前最知名的选择题Benchmark是MMLU(Massive Multitask Language Understanding),它收录了上万道题,覆盖数学、物理、化学、历史等几十门学科,题目难度相当于高中到大学的期中期末考——比如给一道量子物理题,就算在座各位可能都要想半天,更别说模型了。
但诡异的是:同一个模型在MMLU上的正确率,不同文献里的结果居然不一样。比如Llama 65B模型,三篇论文里的正确率能差出好几个百分点。这是为什么?问题出在“怎么让模型回答选择题”上。
1. 输出格式的坑:模型多写一个字,算对还是算错?
比如一道题的正确答案是B,理想情况下模型输出“B”,我们算它对。但实际中模型可能输出:
- “答案是B”
- “根据计算,选项B的结果是1,所以选B”
- “我觉得应该选B,理由是……”
这时怎么算?有人说“写个程序,只要输出里有B就算对”——但如果模型输出“答案不是B”呢?有人说“强制模型只输出选项,多一个字就算错”——但这考验的是模型“听话的能力”,还是“解题的能力”?如果模型答对了还想解释,反而被扣分,这显然不合理。
2. 概率分布的坑:选B的概率最高,但“非选项”概率更高,算对吗?
还有人想:语言模型输出的本质是“Token概率分布”,那我直接看A、B、C、D四个选项的概率,哪个最

最低0.47元/天 解锁文章
1152

被折叠的 条评论
为什么被折叠?



