研究背景
当前大语言模型(LLMs)的发展迅速,尤其是以中文为主的模型。然而,LLMs 的alignment(对齐)是其成为有用助手的关键步骤,包括遵循人类指令和满足人类偏好的能力。然而,对于中文大语言模型的对齐效果评估仍缺乏系统研究。因此,该研究提出 AlignBench,这是一个全面的多维基准,用于评估中文大语言模型在真实场景中的对齐能力。
研究目标
AlignBench 的目标是提供一个综合框架,能够在以下几个维度上评估模型的对齐能力:真实性、开放性、挑战性和自动化评估。
- 真实性:评估模型在真实场景中对齐用户需求的能力。评测数据中的查询的形式和主题应多样化,且来源于真实场景,以反映实际使用场景中的需求。
- 开放性:检验模型在开放性任务中的表现,包括长文本生成和主观性问题的解答。评测指标需要判断回答的详细程度和相关性,而不仅仅是答案是否正确。
- 挑战性:区分模型间细微的能力差异,并为先进模型的进一步优化提供挑战。数据集需要设置足够的难度,以便揭示模型的性能上限和能力短板。
- 自动化评估:通过自动化方法提供大规模、可重复、及时的模型评估。
研究旨在填补现有中文 LLM 对齐评估的空白,为研究者和开发者提供可持续且可靠的基准。
相关工作
现有的评估基准包括英文的 MMLU、BIG-Bench 和 HELM,以及中文的 C-Eval 和 CMMLU。然而,这些基准无法全面评估模型的对齐效果或区分模型之间的细微能力差距。AlignBench 针对这些不足,主要的贡献如下:
- 构建了 AlignBench 数据集,数据集覆盖真实场景中的常见任务,包括 8 大类别(如基本任务、中文理解、数学计算、角色扮演等),共计 683 个样本。并提出了提出了一个可持续的“人类参与”数据构建流程,以确保数据质量并支持长期维护。
- 设计了基于规则校准的多维度自动评估方法,引入了规则校准(Rule-Calibrated Referencing)和任务特定的多维度评分标准,确保评分的客观性和细粒度。比现有方法(如 AlpacaEval 和 MT-Bench)具有更高的一致性和可解释性。且实验表明,AlignBench 的评估方法与人类评分结果高度一致。
- 对中文 LLMs 的全面基准测试与分析。对 17 个支持中文的主流大语言模型(包括 API 和开源模型)进行了系统评估,涵盖多项细粒度能力。提供了详细的性能比较和未来优化方向的建议。
AlignBench 数据集
数据构成
与其他benchmark的整体总览对比:
AlignBench 数据集由 8 个主要类别 组成,共包含 683 个样本,这些类别和样本分布如表格所示:
各个任务类型具体信息如下:
任务类型 | 目标 | 任务内容 | 特点 | 示例任务 |
---|---|---|---|---|
基本任务 | 评估模型在传统 NLP 任务中的表现 | 涵盖信息提取、文本分类和常识性知识等任务,类似于传统 NLP 评测 | 任务形式多样,测试模型在零样本或少样本情况下完成任务的能力 | 短文本分类、信息提取 |
中文理解 | 测试模型在中文特定任务中的理解能力 | 涉及中国文化、语言特性、历史等中文独特背景 | 高比例真实用户需求涉及中文文化和背景知识 | 解释中国历史事件、文化习俗 |
综合问答 | 测试模型在开放式任务中的生成能力 | 回答主观性问题,如建议、推荐或指导 | 答案没有固定格式,要求模型生成长、详细且高度相关的回答 | |
文本写作 | 测试模型的写作能力 | 包括创意写作(如诗歌、故事)、结构化写作(如议论文)以及特定格式要求的任务 | 不仅要求语言能力,还需要高水平的指令遵循、连贯性和创造性 | |
逻辑推理 | 评估模型处理复杂推理任务的能力 | 包括多步推理、常识推理、归纳和演绎推理等 | 需要模型理解问题、分析和给出逻辑一致的答案 | |
数学计算 | 测试模型在数学问题上的能力 | 包括从基础数学到高等数学的多种难度问题 | 题型多样,包括计算、概念解释、定理证明等 | |
角色扮演 | 评估模型在特定角色中的任务完成能力 | 模拟用户要求模型扮演特定角色(如医生、教师)以完成相关任务 | 涉及高复杂度的指令,测试模型的角色模拟和任务执行能力 | |
专业能力 | 测试模型在特定领域中的专业知识 | 涉及法律、物理、音乐、医学等领域的生成性开放问题 | 问题多为开放式,要求模型生成细致且正确的答案 |
数据构造
- 查询收集
来源:
- 在线聊天服务中的真实用户场景。
- 研究人员编写的挑战性问题。
筛选规则:
- 任务导向:查询应明确体现任务需求,要求模型完成具体任务。
- 清晰流畅:查询表达应清楚,需求明确。
- 复杂性与难度:查询需对模型形成挑战,要求模型利用多种能力综合解决。
- 去敏感化:确保查询内容安全、无敏感性。
- 参考答案生成与优化
- 先利用 GPT-4 生成初步参考答案。
- 人类标注员进行严格审阅和修改,以确保参考答案的高质量。
- 针对知识密集型问题(如专业能力、数学和逻辑推理),标注员需查阅网页证据(如 URL 和引用内容)以验证答案的准确性。
- 难度筛选与分类(Filtering & Classification)
- 通过 GPT-4、ChatGLM 等先进模型对查询进行初步评估。
- 将平均得分较高(代表较简单)的 50% 查询筛除,仅保留最具挑战性的部分。
对齐评估方法
核心设计
AlignBench 的评估方法基于 GPT-4 作为主要评估模型,结合规则校准(Rule-Calibrated)和多维度评分策略,确保评分的准确性和解释性。
输入:用户查询、模型回答和人工参考答案;
输出:为多维度评分分析和最终评分。
其评估框架包括以下关键组件:
点评分与cot推理
与传统的成对比较(Pairwise Grading)不同,点评分直接为每个模型回答分配一个从 1 到 10 的分数。同时在评分过程中引入 Chain-of-Thought,要求 GPT-4 分步骤地解释评分依据。
优势:
- 避免了成对比较中的位置偏差(Position Bias)。【两两成对比较已被证明会受到两个回答前后顺序的影响从而产生偏差】
- 提高了评分效率,减少了计算复杂度。
- 引入cot推理,增强评分的可靠性和解释性,为研究人员提供清晰的评分依据。
规则校准的参考答案
为了应对复杂问题,AlignBench 提供了高质量的人工修订参考答案,作为评分的基准。
评分规则:
设置参考答案的分数为 8 分,并在评分过程中明确区分模型回答与参考答案的差距。
通过评分规则(如高质量回答应满足哪些维度要求)指导评估模型,生成更可控的分数
多维度分析
根据任务的不同性质,AlignBench 设计了特定的评分维度,以便更全面地评估模型表现,维度包括:
同时,不同类型任务(如数学推理与写作任务)的评分维度有所区别。具体如下:
prompt如下:
评估流程
AlignBench 的评估方法遵循以下标准化流程:
- 比较模型回答与参考答案:评估者根据评分规则,对比模型回答与参考答案的准确性和差异。
- 从不同维度分析答案质量:评估者对模型回答在多个维度上的表现进行单独评分。
- 综合评估并给出最终分数:基于所有维度的评分,计算出综合评分(1~10 分)。
- 生成详细解释:评估者通过 Chain-of-Thought 描述评分理由,以提高评估的可解释性。
分数有效性实验
实验目标
- 验证 AlignBench 提出的 规则校准多维度 LLM-as-Judge 方法 是否与人类评估结果一致。
- 评估模型生成的评分解释(explanation)的质量,包括其合理性、可读性和一致性。
实验设计
数据集
从 AlignBench 数据集中随机抽取 400 个查询样本。
覆盖 8 个任务类别(如基本任务、数学、逻辑推理等),确保每个类别的样本足够多以获得可靠结果。
选取 8 个大语言模型(包括 GPT-4、ChatGLM 系列、Baichuan 等),生成 3200 个问答对供评估。
基线
General Grading 基线
基于 MT-Bench(Zheng et al., 2023)中的评估框架设计的一种评分方法。
评估流程:
- 通过直接比较模型的回答与人类参考答案,对模型生成的文本进行评分。
- 使用单一评分维度为答案打分,分数范围通常为 1-10。
局限性:
- 评分维度单一:该方法对所有任务使用同一组评分标准,无法根据任务类别的不同进行特定维度的分析(例如创意性任务和逻辑推理任务的评估要求不同)。
- 缺乏规则指导:未对评分进行明确的规则校准,因此评分结果可能具有较高的波动性。
- 解释性不足:虽然使用 GPT-4 提供评分,但评分理由往往不够详细,缺乏系统的逻辑推导。
prompt如下:
** Rule-Calibrated Grading基线**
该方法使用 评分规则 明确回答质量的高低标准,旨在减少评分结果的波动性。
评分规则:
- 评分基准以参考答案为核心,设置其分数为 8 分,并在评分中引入多个质量区间(如 1-3 分为低质量回答,9-10 分为高质量回答)。
- 明确对比模型回答和参考答案的差距,指导 GPT-4 生成更可靠的评分结果。
评估流程:
- 通过规则校准指导 GPT-4 对答案进行多维度评分,例如考虑事实正确性、逻辑一致性和用户需求满足程度。
- 强调对模型回答与参考答案的对比分析,从而生成更具一致性的评分。
优势:
- 减少评分波动:通过规则校准,使得评分分布更贴近人类评分习惯(例如减少高分段偏差)。
- 改善评分一致性:在任务和样本之间表现出更高的评分稳定性。
局限:
- 与 General Grading 相比,虽然规则校准提升了一定的评分准确性,但仍未加入多维度分析,无法针对任务特性进行细致评估。
prompt如下:
评估指标
- 样本级皮尔逊相关性(Sample-Level Pearson Correlation):
计算每个样本的模型评分与人类评分之间的相关性。 - 系统级皮尔逊相关性(System-Level Pearson Correlation):
比较各模型的平均得分(由人类和自动评分分别计算)。 - 成对一致性(Pairwise Agreement,无平局):
将人类和自动评分转换为成对比较,统计一致性比率。 - 评分解释质量:
比较模型评分解释的合理性、可读性和一致性。
实验结果
- 样本级皮尔逊相关性:
AlignBench 的方法获得了最高的一致性分数(0.638),优于 General Grading 和 Rule-Calibrated Grading 方法。 - 系统级皮尔逊相关性:
所有方法在系统级表现都非常高(接近 1.0),说明 AlignBench 在总体模型排序方面与人类评估高度一致。 - 成对一致性:
AlignBench 的方法在成对比较中表现最佳(75.3% 一致性),显著高于其他基线方法。
评分解释质量实验
实验设计
从 AlignBench 数据集中抽取 500 个问答对,生成三种评分解释(AlignBench 方法与两种基线方法),并由人工进行成对比较(共 1500 组对比)
评估维度
合理性(Rationality):解释是否基于准确的事实和合理逻辑。
可读性(Readability):解释是否逻辑清晰、结构良好、全面详细。
一致性(Consistency):评分解释是否与最终评分一致。
实验结果
AlignBench 方法在对比中获胜率最高(58.3% 对比 General Grading;63.4% 对比 Rule-Calibrated Grading),生成的评分解释质量显著优于其他方法。
总结
AlignBench 数据集的设计覆盖了广泛的应用场景和任务类别,其高质量的数据构造流程和多样化的查询设计,为评估中文 LLM 的对齐能力提供了一个全面且系统的基准。这种设计不仅能反映模型的整体能力,还能突出模型的优缺点,为模型优化提供方向。
AlignBench 的评估方法在一致性和评分解释质量上均表现出色,具体优势包括:
- 与人类评估的高度一致性:
AlignBench 在样本级和系统级相关性中都超过了基线方法,尤其是在样本级别的一致性上表现显著。 - 高质量评分解释:
AlignBench 的 Chain-of-Thought 推理方法生成的评分解释更合理、详细且与评分一致。 - 评分稳定性:
Rule-Calibrated 方法减少了高分段的偏差,与人类评估习惯更加一致。