【课程笔记·李宏毅教授】如何鉴定大型语言模型的能力

今天这堂课,我们聚焦一个关键问题——如何鉴定大型语言模型的能力。现在每隔一段时间就有新的大模型推出,几乎每个模型都宣称“接近GPT-4”,但到底怎么判断它们的真实水平?今天我们就从“评估逻辑”“具体方法”“潜在陷阱”三个维度,把这件事讲透。

一、评估的核心逻辑:输入、输出与标准答案的比对

不管是语言模型还是其他AI模型,评估的底层逻辑其实很简单:
你准备一批“输入”,再准备这些输入对应的“标准答案”,给两个要对比的模型(比如A和B)喂同样的输入,看它们的输出和标准答案有多吻合——吻合度高的,能力就更强。
这里的“输入+标准答案”组合,就是我们常说的Benchmark(基准测试集)。平时大家说“模型要跑Benchmark”,意思就是把模型放在公认的测试集上,看它比其他模型表现如何。

但这个逻辑听起来简单,实际操作时问题可不少——尤其是语言模型的输出是“开放式”的,不像数学题只有唯一解,这就让“判断对错”变得非常有挑战。

二、看似有标准答案,实则坑很多

既然开放式输出难评估,那我们先从“有标准答案”的选择题入手。目前最知名的选择题Benchmark是MMLU(Massive Multitask Language Understanding),它收录了上万道题,覆盖数学、物理、化学、历史等几十门学科,题目难度相当于高中到大学的期中期末考——比如给一道量子物理题,就算在座各位可能都要想半天,更别说模型了。

但诡异的是:同一个模型在MMLU上的正确率,不同文献里的结果居然不一样。比如Llama 65B模型,三篇论文里的正确率能差出好几个百分点。这是为什么?问题出在“怎么让模型回答选择题”上。

1. 输出格式的坑:模型多写一个字,算对还是算错?

比如一道题的正确答案是B,理想情况下模型输出“B”,我们算它对。但实际中模型可能输出:

  • “答案是B”
  • “根据计算,选项B的结果是1,所以选B”
  • “我觉得应该选B,理由是……”

这时怎么算?有人说“写个程序,只要输出里有B就算对”——但如果模型输出“答案不是B”呢?有人说“强制模型只输出选项,多一个字就算错”——但这考验的是模型“听话的能力”,还是“解题的能力”?如果模型答对了还想解释,反而被扣分,这显然不合理。

2. 概率分布的坑:选B的概率最高,但“非选项”概率更高,算对吗?

还有人想:语言模型输出的本质是“Token概率分布”,那我直接看A、B、C、D四个选项的概率,哪个最

给定引用内容中未提及李宏毅语言模型学习笔记的相关信息,不过可以从大语言模型的一些常见关键概念为你生成一份宽泛的学习笔记内容。 ### 大语言模型的现象与提示词教学 大模型刚出现时,存在一种奇特现象,即做大模型的未盈利,而教使用大模型的人却收益颇丰。这些教学主要围绕提示词和神奇咒语展开。虽然看似有用,但实际效果有限,仅能让人在课堂示例中获得短暂快乐,与真正运用代码解决实际问题的能力差距巨大,就如同会打印“Hello World!”和能解决实际问题的程序员之间的差距[^1]。 ### 大语言模型的微调示例 以HW6的DPO微调示例来说,其目的是根据人类偏好优化LLM大语言模型。训练完成后,需查看微调后的模型效果。生成训练后模型响应的代码示例如下: ```python trained_model_response = [] for data in tqdm(test_data): id = data['id'] print(f'Question {id}:\n'+data['prompt']) inputs = tokenizer(data_formulate(data), return_tensors="pt").to('cuda') generation_config=GenerationConfig( do_sample=False, max_new_tokens = 200, pad_token_id = tokenizer.pad_token_id ) output = model.generate(**inputs, generation_config=generation_config) output = tokenizer.batch_decode(output, skip_special_tokens=True)[0].split('[/INST] ')[1] trained_model_response.append(output) print('Response from trained model:\n'+output+'\n') ``` 此代码通过循环处理测试数据,对每个问题生成输入,使用模型生成响应,并将响应存储在列表中,最后打印出来[^2]。 ### 大语言模型的关键能力语言模型具备一些关键能力,包括零样本能力、指令调整和RLHF(来自人类反馈的强化学习)。零样本能力意味着模型无需示例即可直接完成任务;指令调整是通过微调模型,使其能更好地理解并执行指令描述的任务;RLHF则进一步改进模型,使其符合人类偏好,例如ChatGPT的开发就运用了这一技术[^3]。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

黑客思维者

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值