Llama 2:开放基础与微调聊天模型-人人可以 fine-tune 大型語言模型的時代開始了

Llama 2: Open Foundation and Fine-Tuned Chat Models

文章说明来自 2307.09288 (arxiv.org)

Llama 2 是 Meta 开发的一系列预训练和微调的大语言模型,包含 70 亿、130 亿和 700 亿参数等不同规模,旨在提供强大的语言处理能力,同时注重安全性和实用性。论文详细介绍了模型的预训练、微调、安全措施以及评估结果等内容。

LLaMA 开放使用以后,人人可以 fine-tune 大型語言模型的時代開始了 ,如何fine tune 大语言模型,是这篇论文的主要说明

  1. 模型概述
    • 模型发布与用途:Llama 2 包括预训练模型和微调后的 Llama 2 - Chat 模型,可用于商业和研究,有不同参数规模版本,如 7B、13B 和 70B 等,预训练数据不包含 Meta 用户数据145。
    • 性能优势:在多个基准测试中表现优于开源模型,与一些闭源模型相当,如在 helpfulness 和 safety 评估中表现出色,其奖励模型在处理人类偏好数据时准确性较高123。

图1:Llama 2-Chat与其他开源和闭源模型相比的有用性人类评估结果。人类评分者在由单圈和多圈提示组成的~4k提示上比较模型世代。该评估的95%置信区间在1%到2%之间。更多细节见第3.4.2节。在审查这些结果时,重要的是要注意,由于提示集的限制、审查指南的主观性、个人评分者的主观性以及比较世代的固有困难,人类评估可能会很嘈杂。

图 2:根据 GPT4,商业许可基线和骆驼 2-Chat 之间的帮助性和安全性胜率 %。为了补充人类评估,我们使用了一个更有能力的模型,不受我们自己的指导。绿色区域表示我们的模型根据 GPT-4 更好。为了消除联系,我们使用了 win/(win + 损失)。模型响应呈现给 GPT-4 的顺序被随机交换以减轻偏差。

  1. 预训练阶段
    • 数据处理与来源:使用新的公开数据混合训练,进行了更严格的数据清洗,训练数据量达 2 万亿个标记,增加了事实性来源的采样以减少幻觉
       
    • 模型架构与训练细节
      • 架构改进:采用优化的自回归变压器架构,将上下文长度从 2048 扩展到 4096 tokens,使用分组查询注意力(GQA)提高大模型推理可扩展性,详细对比了不同架构的性能差异

        为了创建新的Llama 2模型系列,我们从Touvron等人(2023)中描述的预训练方法开始,使用优化的自回归转换器,但进行了一些更改以提高性能。具体来说,我们执行了更健壮的数据清理,更新了我们的数据组合,在40%以上的总标记上进行了训练,将上下文长度增加了一倍,并使用分组查询注意力(GQA)来提高我们较大模型的推理可扩展性。表1比较了新的Llama 2模型和Llama 1模型的属性。

        我们采用了Llama 1的大部分预训练设置和模型架构。我们使用标准转换器架构(Vaswani等人,2017年),使用RMSNorm应用预归一化(Zhang和Sennrich,2019年),使用SwiGLU激活函数(Shazeer,2020年)和旋转位置嵌入(RoPE,Su等人,2022年)。与Llama 1的主要架构差异包括增加的上下文长度和分组查询注意力(GQA)。我们在附录第A.2.1节中详细介绍了这些差异中的每一个,并通过消融实验来证明它们的重要性。

      • 训练参数设置:使用 AdamW 优化器,设置超参数如 β1 = 0.9、β2 = 0.95、eps = 10⁻⁵,采用余弦退火学习率策略,训练过程中对权重进行衰减和梯度裁剪9。
      • 训练硬件与碳排放:在 Meta 的研究超级集群(RSC)和内部生产集群上进行预训练,使用 NVIDIA A100s GPU,计算预训练的碳排放并通过可持续发展计划抵消,同时对比了不同集群的互联方式和功耗111213。
    • 预训练模型评估
      • 基准测试结果:在多个学术基准测试中,Llama 2 模型在代码生成、常识推理、世界知识、阅读理解、数学推理和流行聚合基准等任务上的表现优于 Llama 1 和其他开源模型,如在 MMLU 和 BBH 基准测试中,Llama 2 70B 模型相比 Llama 1 65B 模型有显著提升,接近或优于一些闭源模型,但在编码基准测试上与 GPT - 4 仍有差距
      •  
        • 如表 3 所示,Llama 2 模型的性能优于 Llama 1 模型。特别是,与 Llama 1 65B 相比,Llama 2 70B 将 MMLU 和 BBH 的结果分别提高了 ≈5 和 ≈8 分。Llama 2、7B 和 30B 模型在除代码基准之外的所有类别中都优于相应大小的 MPT 模型。对于 Falcon 型号,Llama 2 7B 和 34B 在所有类别的基准测试中都优于 Falcon 7B 和 40B 型号。此外,Llama 2 70B 模型的性能优于所有开源模型。141516。
      • 数据污染分析:评估了数据污染对模型性能的影响,发现 HellaSwag 和 MMLU - Humanities 数据集存在一定程度的污染,70B 模型受污染影响的表现优于 7B 模型77。
  2. 微调阶段
    • 监督微调(SFT) Supervised Fine-Tuning (SFT)
      • 数据收集与处理:从公开可用的指令调整数据开始,后专注于收集高质量数据,通过人工编写和筛选,确保数据多样性和质量,共收集 27,540 条注释,数据包含单轮和多轮对话,注重安全和有用性,同时对数据进行预处理以适应模型训练。

        质量就是您所需要的。第三方 SFT 数据可从许多不同的来源获得,但我们发现其中许多数据的多样性和质量不足 —— 特别是对于使 LLM 向对话式说明调整而言。因此,我们首先专注于收集数千个高质量 SFT 数据示例,如表 5 所示。通过从第三方数据集中留出数百万个示例,并使用来自我们自己基于供应商的注释工作的更少但质量更高的示例,我们的结果得到了显著改善。这些发现在精神上与 周 et al. (2023) 相似,后者也发现一组有限的干净指令调整数据足以达到高质量水平。我们发现,数万个 SFT 注释就足以获得高质量的结果。在收集了总共 27,540 条注释后,我们停止了对 SFT 的注释。请注意,我们不包括任何 Meta 用户数据。

        我们还观察到,不同的注释平台和供应商可能会导致下游模型性能明显不同,这凸显了数据检查的重要性,即使在使用供应商来获取注释时也是如此。为了验证我们的数据质量,我们仔细检查了一组 180 个示例,将人类提供的注释与模型通过人工审查生成的样本进行了比较。令人惊讶的是,我们发现从生成的 SFT 模型中采样的输出通常与人工注释者手写的 SFT 数据具有竞争力,这表明我们可以重新确定优先级并将更多的注释工作投入到 RLHF 的基于偏好的注释中。

      • 微调过程与参数:使用余弦退火学习率、权重衰减、批量大小为 64、序列长度为 4096 tokens,通过连接训练集的提示和答案来填充模型序列长度,利用自回归目标进行训练,对用户提示中的标记零化损失,仅反向传播答案标记的损失,模型训练 2 个 epoch
        微调细节。对于监督微调,我们使用余弦学习率计划,初始学习率为 $2 ×10^{-5}$,权重衰减为 0.1,批量大小为 64,序列长度为 4096 个标记。对于微调过程,每个样本都由一个提示和一个答案组成。为了确保模型序列长度得到正确填充,我们将训练集中的所有提示和答案连接起来。使用特殊令牌来分隔提示段和答案段。我们利用自回归目标,将用户提示符中标记的损失归零,因此,我们只对答案标记进行反向传播。最后,我们将模型微调 2 个 epoch。
    • 强化学习与人类反馈(RLHF)Reinforcement Learning with Human Feedback (RLHF)
      • 人类偏好数据收集:采用二元比较协议收集数据,让注释者根据 helpfulness 和 safety 选择更好的模型响应,每周收集一批数据,随着时间推移,数据样本数量增加,多轮对话样本增多,平均标记数也增加,同时收集安全标签对响应进行分类202122。
      • 奖励建模
        • 模型训练与优化:训练两个单独的奖励模型(Helpfulness RM 和 Safety RM),将人类偏好数据转换为二进制排名标签格式,使用特定损失函数训练,根据偏好评级调整损失函数中的边际成分以提高模型准确性,同时结合不同来源数据进行实验确定最佳混合比例232425。
        • 模型性能与趋势:奖励模型在处理 Llama 2 - Chat 相关数据时表现出色,准确性随着数据量和模型规模增加而提高,未出现饱和迹象,不同模型在不同偏好评级上的准确性表现不同,如在 “显著更好” 的测试集中准确性较高262728。
      • 迭代微调
        • 算法探索与应用:主要探索了近端策略优化(PPO)和拒绝采样微调两种算法,PPO 是 RLHF 中的标准算法,拒绝采样通过选择最佳候选输出来优化模型,在不同阶段对两者的应用有所不同,如在 RLHF(V4)之前主要使用拒绝采样微调,之后结合两者顺序应用293033。
        • 温度调整与效果:研究发现温度参数对模型输出多样性有影响,不同任务和模型阶段的最优温度不同,如在创作性提示下较高温度能保持多样性,在事实性提示下模型学会提供一致回答,温度会影响奖励模型评分,迭代过程中需重新调整温度313234。
    • 系统消息与多轮一致性(GAtt)
      • 方法提出与原理:提出 Ghost Attention(GAtt)方法解决多轮对话中模型遗忘初始指令的问题,通过在训练数据中合成指令并调整损失,使模型在多轮对话中保持一致性353637。
      • 评估与效果:应用 GAtt 后,模型在多轮对话中能更好地遵循指令,如在处理公共人物和爱好相关指令时,能准确参考定义属性,且在未见过的约束条件下也能保持一致性,不过当前 GAtt 实现较为基础,有进一步发展的空间383940。
  3. 安全措施与评估
    • 预训练中的安全措施
      • 数据处理与审查:遵循 Meta 的隐私和法律审查流程,不使用 Meta 用户数据,排除含个人信息多的网站数据,未对数据集过度过滤,以提高模型泛化能力,同时分析了预训练数据中的语言、人口统计、毒性等情况414243。
      • 模型评估与分析:在现有安全基准上测试预训练模型,发现 Llama 2 在真实性和毒性方面相比 Llama 1 有改进,但在毒性指标上未超越其他模型,可能与未过度过滤预训练数据有关,同时指出基准测试存在局限性,不能完全反映模型在实际应用中的安全性能444546。
    • 安全微调
      • 安全类别与标注指南:根据风险类别(如非法犯罪、有害活动、不合格建议等)和攻击向量(如心理、逻辑、句法、语义操纵等)设计对抗提示,定义安全和有用的模型响应准则,要求模型优先处理安全问题,解释潜在风险并提供额外信息,同时避免产生负面用户体验的内容474849。
      • 监督安全微调:收集对抗提示和安全演示数据用于监督微调,使模型在 RLHF 前符合安全准则,数据收集过程注重质量控制,通过人工审核确保数据准确性和安全性505152。
      • RLHF 中的安全措施
        • 安全 RLHF:通过收集安全相关的人类偏好数据,训练安全奖励模型,使模型学会处理安全相关提示,实验表明安全 RLHF 能提高模型在安全测试集上的表现,且在有足够有用性训练数据时,不会显著降低模型的有用性535452。
        • 安全数据缩放:研究增加安全数据对模型性能的影响,发现随着安全数据比例增加,模型处理风险提示能力提高,但可能导致在非对抗性提示上出现更多保守的错误拒绝,如在包含敏感词的安全提示上,模型可能拒绝回答555657。
        • 安全上下文蒸馏:通过在对抗提示前添加安全预提示生成更安全响应,然后在无预提示的情况下微调模型,使模型将安全预提示与安全响应相关联,同时利用安全奖励模型决定是否应用上下文蒸馏,以避免对有用提示产生负面影响584359。
    • 红队测试:组织多领域人员进行红队测试,涵盖多种风险类别和攻击向量,包括犯罪规划、人类 trafficking、有害信息等,通过分析测试结果改进模型安全训练,提升了模型的安全性和鲁棒性,如 7B 模型在多次红队测试迭代后的违规响应率显著降低606162。
    • 安全评估结果
      • 人类评估:收集约 2000 个对抗提示进行评估,Llama 2 - Chat 模型在不同规模下总体违规率较低,在单轮和多轮对话中表现较好,与其他模型相比有优势,但不同模型在不同类别风险上表现有差异,同时人类评估存在局限性,如提示集有限、缺乏多样性、未评估多轮对话整体体验等636465。
      • 自动评估:在真实性(TruthfulQA)、毒性(ToxiGen)和偏差(BOLD)等基准测试中,微调后的 Llama 2 - Chat 相比预训练模型有改进,如真实性提高、毒性降低,在偏差基准测试中对不同群体情感倾向有变化,但基准测试存在局限性,不能完全涵盖模型的所有安全方面,如对对抗性输入和特定人口统计类别覆盖不足444546。
  4. 其他发现与讨论
    • 模型能力观察
      • RLHF 的影响:在 RLHF 过程中发现模型能在某些方面超越人类标注者表现,如组织知识、使用工具等能力,这表明 RLHF 在提升模型性能方面具有重要作用,可能改变对 “监督” 概念的传统认知666769。
      • 时间感知与工具使用:模型能理解时间概念,通过少量时间相关数据学习后,可在回答中准确运用时间信息,还能在零样本情况下自发使用工具(如调用计算器),但工具使用也带来安全问题,需要进一步研究687069。
    • 模型局限性与伦理考虑:Llama 2 - Chat 存在与其他 LLM 类似的局限,如知识更新停止、可能生成非事实内容、倾向于幻觉、在非英语语言上表现有限、可能生成有害内容等,且安全调优可能导致模型过于谨慎,使用时需开发者进行额外调优并遵循指南717273。
    • 负责任的发布策略:模型可在遵循许可证和使用政策下用于研究和商业,提供代码示例和使用指南,旨在鼓励负责任的 AI 创新,促进社区合作,推动模型发展和安全改进,同时也认识到模型存在风险,需持续努力提升安全性747576。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值