【课程笔记·李宏毅教授】如何鉴定大型语言模型的能力

最新推荐文章于 2025-12-09 18:47:49 发布

原创

最新推荐文章于 2025-12-09 18:47:49 发布 · 1.2k 阅读

26 ·

CC 4.0 BY-SA版权

文章标签：

#笔记 #语言模型 #人工智能

今天这堂课，我们聚焦一个关键问题——如何鉴定大型语言模型的能力。现在每隔一段时间就有新的大模型推出，几乎每个模型都宣称“接近GPT-4”，但到底怎么判断它们的真实水平？今天我们就从“评估逻辑”“具体方法”“潜在陷阱”三个维度，把这件事讲透。

一、评估的核心逻辑：输入、输出与标准答案的比对

不管是语言模型还是其他AI模型，评估的底层逻辑其实很简单：
你准备一批“输入”，再准备这些输入对应的“标准答案”，给两个要对比的模型（比如A和B）喂同样的输入，看它们的输出和标准答案有多吻合——吻合度高的，能力就更强。
这里的“输入+标准答案”组合，就是我们常说的Benchmark（基准测试集）。平时大家说“模型要跑Benchmark”，意思就是把模型放在公认的测试集上，看它比其他模型表现如何。

但这个逻辑听起来简单，实际操作时问题可不少——尤其是语言模型的输出是“开放式”的，不像数学题只有唯一解，这就让“判断对错”变得非常有挑战。

二、看似有标准答案，实则坑很多

既然开放式输出难评估，那我们先从“有标准答案”的选择题入手。目前最知名的选择题Benchmark是MMLU（Massive Multitask Language Understanding），它收录了上万道题，覆盖数学、物理、化学、历史等几十门学科，题目难度相当于高中到大学的期中期末考——比如给一道量子物理题，就算在座各位可能都要想半天，更别说模型了。

但诡异的是：同一个模型在MMLU上的正确率，不同文献里的结果居然不一样。比如Llama 65B模型，三篇论文里的正确率能差出好几个百分点。这是为什么？问题出在“怎么让模型回答选择题”上。