阅读笔记-THE POISON OF ALIGNMENT

部署运行你感兴趣的模型镜像
  1. 研究背景:
    随着大型语言模型(LLMs)的发展,它们在复杂基准测试(如Human Eval和Big Bench)和专业考试(如SAT、GRE和LSAT)中展现出了令人印象深刻的能力。然而,尽管LLMs在这些领域取得了显著进步,但与顶尖人类表现者之间的差距仍然存在。此外,最近的研究表明,现有的知识蒸馏模型(如Vicuna、Alpaca和Orca)主要模仿对话格式,而不是提高推理能力或事实准确性。这些模型在微调(SFT)后虽然能够生成结构良好的输出,但内容常常包含错误或与主题显著偏离。

  2. 过去方案和缺点:
    过去的研究主要集中在通过监督式微调(SFT)来提高LLMs的性能,但这些研究面临批评,因为它们认为SFT主要是格式任务,而不是实质性地提高模型的推理能力。此外,数据清洗方法的研究虽然取得了显著进展,但对齐(alignment)在SFT数据集中的存在可能对模型性能产生负面影响,这一点在以往的研究中并未得到充分关注。

  3. 本文方案和步骤:
    本文提出了一种新的数据集清洗方法,特别关注对齐对SFT数据集的影响。研究者从GoatChat应用中收集数据,并进行了基本的质量过滤、数据合并、精确和模糊去重以及对齐移除。通过这些步骤,研究者创建了一个去除了对齐答案的数据集,并用它来微调模型。实验设置包括在8xA100 NVIDIA GPU上进行计算,使用bfloat16和DeepSpeed ZeRO-3进行训练,以及使用AdamW优化器。

  4. 本文实验和性能:
    研究者在多个推理基准测试(如MMLU、BBH、HumanEval和DROP)上评估了模型。实验结果表明,与基础模型相比,经过新数据处理方法微调的模型在MMLU和BBH上的性能有显著提升。此外,通过消融研究,研究者发现对齐数据集的训练并没有改善模型性能,而清洁后的数据集则显著提高了模型性能。这表明对齐可能扭曲了之前微调方法的性能提升,导致模型在推理能力上没有显著改进。

阅读总结报告:
本文提出了一种新的视角,即在SFT过程中,对齐的存在类似于数据集中毒。研究者通过实验证明,对齐显著损害了模型在推理基准测试中的性能(性能下降了4-33%)。此外,本研究强调了尽管存在批评,但彻底的数据集清洗和准备对于监督指令微调任务的有效性。研究者揭示了数据集构建的细节,这些细节对于理解有效的数据集构建以及描述他们详尽的数据清洗流程非常有用。尽管本研究基于LLaMA 2进行,继承了其局限性,如数据偏见、缺乏世界理解和幻觉,但研究方法主要针对研究目的,并且在研究环境中进行了测试。

注1:
基准测试(Benchmark Tests)是用于评估和比较机器学习模型、算法或系统性能的标准测试。在人工智能和自然语言处理(NLP)领域,基准测试通常包括一系列设计精良的任务或问题,旨在测试模型在特定领域或能力上的表现。以下是提到的两个基准测试的简要介绍:

  1. Human Eval
    Human Eval 是一个专门为了评估大型语言模型(LLMs)在执行编程任务时的功能正确性而设计的基准测试。它包含了164个手工制作的编程问题,这些问题包括函数签名、文档字符串(docstrings)和单元测试。这个基准测试不仅测试模型的理解和推理能力,还测试它们在生成语法和语义上准确无误的代码方面的能力。Human Eval 提供了一个独特的视角,用于评估LLMs是否能够真正理解和产生准确的代码,而不仅仅是复制代码。

  2. Big Bench (BBH)
    Big Bench 是一个旨在评估和量化语言模型在各种任务上的能力的基准测试。它包含了204个任务,涵盖了语言学、生物学、软件开发等多个领域。Big Bench 的目标是揭示LLMs的新兴能力,并界定其潜在的局限性。这个基准测试通过与从密集到稀疏的变换器架构的最新技术进行校准,提供了关于性能趋势、与规模相关的增强以及任务特定挑战的宝贵见解。

这些基准测试为研究人员提供了一个共同的评估平台,使他们能够比较不同模型的性能,并识别模型在特定任务或能力上的潜在改进空间。通过在这些基准测试上进行评估,研究人员可以更好地理解他们的模型在实际应用中可能的表现。

注2:
在论文 “The Poison of Alignment” 中,作者提出了一个观点,即在监督式微调(Supervised Fine-Tuning, SFT)过程中,对齐(alignment)的存在可能会对模型性能产生负面影响,类似于数据集中的“中毒”(poisoning)。这里的“对齐”指的是在训练数据中故意引入的、旨在限制模型响应某些用户输入的指令。这种做法在许多现代开源指令微调数据集中很常见,目的是为了限制模型生成有害内容。

作者认为对齐可能对SFT过程中的模型性能产生负面影响的原因如下:

  1. 信息性缺失
    对齐答案通常不包含对用户查询的有信息性回应。模型在对齐过程中被训练为避免提供用户请求的确切信息,这可能导致模型在处理实际问题时缺乏必要的信息性。

  2. 性能下降
    实验结果表明,与未经对齐的数据集微调的模型相比,使用对齐数据集微调的模型在多个推理基准测试(如Big Bench、Massive Multitask Language Understanding等)上的性能显著下降。这表明对齐可能限制了模型的推理能力和事实准确性。

  3. 数据集质量
    对齐可能被视为一种数据集污染,因为它改变了数据集的自然分布,使得模型在微调过程中学习到的模式与实际应用场景不符。这种污染可能会误导模型的学习过程,导致其在推理任务上的表现不佳。

  4. 模型行为的潜在改变
    对齐可能引导模型的行为朝着不期望的方向发展。例如,模型可能会学会避免某些类型的输出,即使这些输出在没有对齐的情况下是有益的或必要的。

  5. 消融研究
    作者通过消融研究进一步证实了对齐的负面影响。他们创建了两个数据集:一个包含对齐,另一个不包含。在相同的训练设置下,使用未对齐数据集微调的模型在多个基准测试上表现更好,这表明对齐确实对模型性能产生了负面影响。

综上所述,作者认为在SFT过程中,对齐的存在可能会损害模型的推理能力和事实准确性,从而影响其在实际应用中的有效性。这种影响类似于数据集中的“中毒”,因为它改变了模型从训练数据中学到的模式。

您可能感兴趣的与本文相关的镜像

Llama Factory

Llama Factory

模型微调
LLama-Factory

LLaMA Factory 是一个简单易用且高效的大型语言模型(Large Language Model)训练与微调平台。通过 LLaMA Factory,可以在无需编写任何代码的前提下,在本地完成上百种预训练模型的微调

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值