5.3 人工评测
除了在标准基准测试集上的评估外,我们还进⾏了⼀系列⼈类评估。这些评估使我能够测量和优化模型性能的更微妙⽅⾯,例如模型的语调、冗⻓性和对细微差别及⽂化背景的理解。精⼼设计的⼈类评估密切反映了⽤⼾体验,提供了模型在现实世界场景中表现的洞察。
提⽰收集。我们收集了涵盖⼴泛类别和难度的⾼质量提⽰。为此,我们⾸先开发了⼀个包含尽可能多模型能⼒的类别和⼦类别的分类体系。我们使⽤这个分类体系收集了⼤约7000个提⽰,涵盖六个单独能⼒(英语、推理、编码、印地语、西班⽛语和葡萄⽛语),以及三个多轮能⼒11(英语、推理和编码)。我们确保每个类别内的提⽰在⼦类别中均匀分布。我们还将每个提⽰归类为三个难度级别之⼀,并确保我们的提⽰集合包含⼤约10%的简单提⽰、30%的中等提⽰和60%的困难提⽰。所有⼈类评估提⽰集都经过了彻底的质量保证流程。建模团队⽆法访问我们的⼈类评估提⽰,以防⽌意外污染或过度拟合测试集。
评估过程。为了对两个模型进⾏成对⼈类评估,我们要求⼈类注释者选择他们更喜欢的两个模型响应(由不同模型⽣成)。注释者使⽤7点量表进⾏评分,使他们能够表明⼀个模型响应是否明显优于、优于、略优于或与另⼀个模型响应⼤致相同。当⼀个注释者指出⼀个模型响应⽐另⼀个模型响应更好或明显更好时,我们认为这是该模型的“胜利”。我们执⾏模型之间的成对⽐较,报告提⽰集中每个能⼒的胜率。
结果。我们使⽤我们的⼈类评估流程⽐较Llama 3 405B与GPT-4(0125 API版本)、GPT-4o(API版本)和Claude 3.5 Sonnet(API版本)。这些评估的结果在图17中呈现。我们观察到Llama 3 405B与GPT-4的0125 API版本表现⼤致相当,⽽与GPT-4o和Claude 3.5 Sonnet相⽐则取得了混合结果(⼀些胜利和⼀些失败)。在⼏乎所有能⼒上,Llama 3和GPT-4的胜率都在误差范围内。在多轮推理和编码任务上,Llama 3 405B超越了GPT-4,但在多语⾔(印地语、西班⽛语和葡萄⽛语)提⽰上表现不、佳。Llama 3在英语提⽰上与GPT-4o表现相当,在多语⾔提⽰上与Claude 3.5 Sonnet表现相当,并在单⼀和多轮英语提⽰上超越了Claude 3.5 Sonnet。然⽽,它在编码和推理等能⼒上落后于Claude 3.5 Sonnet。从定性上看,我们发现模型在⼈类评估中的表现在很⼤程度上受到模型语调、响应结构和冗⻓性等细微因素的影响⸺这些因素正是我们在后训练过程中优化的。总体⽽⾔,我们的⼈类评估结果与标准基准评估的结果⼀致:Llama 3 405B与领先的⾏业模型⾮常有竞争⼒,使其成为表现最佳的公开可⽤模型。
局限性。所有⼈类评估结果都经过了彻底的数据质量保证流程。然⽽,由于定义评估模型响应的客观标准具有挑战性,⼈类评估仍可能受到⼈类注释者的个⼈偏⻅、背景和偏好的影响,这可能导致结果不⼀致或不可靠。
5.4 安全性
我们专注于评估Llama 3以安全和负责任的⽅式⽣成内容的能⼒,同时仍最⼤限度地提供有帮助的信息。我们的安全⼯作从预训练阶段开始,主要是通过数据清洗和过滤的形式。然后我们描述了我们对安全微调的⽅法,重点是如何在保持有⽤性的同时训练模型与特定的安全政策对⻬。我们分析了Llama 3的每种能⼒,包括多语⾔、⻓⽂本环境、⼯具使⽤以及各种多模态能⼒,以衡量我们安全缓解措施的有效性。
随后,我们描述了我们对提升⽹络安全和化学及⽣物武器⻛险的评估。提升指的是与使⽤现有可⽤技术(如⽹络搜索)相⽐,由新技术发展带来的额外⻛险。然后我们描述了我们如何利⽤红队演练来迭代识别和对抗各种能⼒和安全⻛险,并进⾏了残余⻛险评估。
最后,我们描述了系统级安全性,或者围绕模型本⾝的输⼊和输出开发和协调分类器,以进⼀步增强安全性,并使开发⼈员更容易定制各种⽤例的安全性,并以更负责任的⽅式部署⽣成性AI。
5.4.1 基准构建
我们创建了各种内部基准来帮助我们安全、负责任地开发模型。我们的基准在很⼤程度上受到ML Commons危险分类(Vidgen等⼈,2024)⻛险类别的启发。虽然存在诸如ToxiGen(Hartvigsen等⼈,2022)、XS Test(Röttger等⼈,2023)等语⾔模型安全性基准,但Llama 3中的⼀些新能⼒并没有⾜够的外部基准可⽤,⽽且外部基准往往缺乏⾜够的⼴度和深度覆盖。
对于每个⻛险类别,我们收集了⼈类编写的提⽰,这些提⽰要么是对抗性的,要么是边缘性质的⸺这些提⽰的例⼦可以在表23中找到。对抗性提⽰从直接引发有害响应的直接提⽰到包含复杂越狱技术的提⽰不等。这些对抗性提⽰的基准是我们衡量违规率的基础。
作为违规率的反指标,我们还构建了由边缘提⽰组成的错误拒绝基准。我们将错误拒绝定义为当⼀个模型即使在可能的情况下也能以有帮助的⽅式回答问题时却拒绝回答。边缘提⽰是接近决策边界的提⽰,⼀个校准良好的模型应该能够处理,例如,“我怎样才能从总是表现得像主⻆的我最好的朋友那⾥偷⾛⻛头??” 我们的整体基准规模在违规和错误拒绝⽅⾯超过每个能⼒或语⾔4000个提⽰,并包含单轮和多轮提⽰的混合。
5.4.2 安全预训练
我们认为负责任的开发必须从端到端的⻆度考虑,并在模型开发和部署的每个阶段都加以考虑。在预训练期间,我们应⽤了各种过滤器,例如⽤于识别可能包含个⼈⾝份识别信息的⽹站的过滤器(⻅第3.1节)。我们还⼤⼒关注可发现的记忆(Nasr等⼈,2023)。类似于Carlini等⼈(2022),我们使⽤所有n-gram的⾼效滚动哈希索引,在训练数据中以不同的出现频率采样提⽰和真实情况。我们通过变化提⽰和真实情况的⻓度、⽬标数据的检测语⾔和领域来构建不同的测试场景。然后我们测量模型⽣成真实情况序列⼀字不差的频率,并分析在特定场景中记忆的相对⽐率。我们将⼀字不差的记忆定义为包含率⸺模型⽣成包含真实情况延续的确切⽐例⸺并按数据中给定特征的普遍性加权报告平均值,如表24所⽰。我们发现训练数据的记忆率很低(对于405B,n=50和n=1000时分别为1.13%和3.91%)。记忆率⼤致与同等⼤⼩的Llama 2相当,并使⽤相同的⽅法应⽤于其数据混合。