论文地址:https://arxiv.org/abs/2410.12896v1
bib引用:
@misc{
wang2024surveydatasynthesisaugmentation,
title={
A Survey on Data Synthesis and Augmentation for Large Language Models},
author={
Ke Wang and Jiahui Zhu and Minjie Ren and Zeming Liu and Shiwei Li and Zongye Zhang and Chenkai Zhang and Xiaoyu Wu and Qiqi Zhan and Qingjie Liu and Yunhong Wang},
year={
2024},
eprint={
2410.12896},
archivePrefix={
arXiv},
primaryClass={
cs.CL},
url={
https://arxiv.org/abs/2410.12896},
}
主要内容
综述大语言模型(LLMs)的数据合成与增强技术,涵盖其在LLMs生命周期各阶段和核心功能中的应用,讨论面临的挑战并展望未来方向。
- 研究背景
- LLMs发展与数据需求:LLMs在多领域取得显著成果,其性能依赖大量高质量数据。但高质量数据增长缓慢,获取成本高且存在隐私问题,传统数据合成与增强技术有局限性,因此LLMs数据合成与增强技术愈发重要。
- 研究目的与贡献:首次全面综述该领域技术,涵盖LLMs全生命周期和核心功能;引入新分类框架,从生命周期和核心功能视角分类研究;识别挑战,探索未来方向;维护资源库支持研究。
- 数据合成与增强技术分类【通用模型蒸馏、领域模型蒸馏、Self-Improvement】
- 数据增强:通过变换原始数据增加多样性和数量,分为数据标注、数据重构和协同标注。数据标注利用LLMs标注未标记数据;数据重构将现有数据转换为多种形式;协同标注是人和LLMs共同标注数据。
- 数据合成:从无到有或基于生成模型创建新数据,包括通用模型蒸馏、领域模型蒸馏和模型自我改进。通用模型蒸馏利用强大模型生成数据提升弱模型;领域模型蒸馏针对特定领域生成数据;模型自我改进是模型生成高质量数据提升自身能力。
- LLMs全生命周期中的应用
- 数据准备:旨在生成高质量多样数据。通用模型蒸馏通过从种子合成、合成推理步骤等方式生成数据;数据增强通过数据标注、重构等方法处理现有数据。
- 预训练:为LLMs提供丰富数据。模型自我改进中LLM生成数据预训练自身;通用模型蒸馏利用强大模型蒸馏高质量数据;数据增强通过数据重构和非LLMs驱动方法扩充数据集。
- 微调:用生成数据微调LLMs。模型自我改进包括单步、迭代和多模态自我改进;通用模型蒸馏通过多种方式合成微调数据;数据增强通过数据标注和重构增强现有数据。
- 指令调整:探索合成指令生成高质量数据。通用模型蒸馏用强LLM为弱LLM合成数据;模型自我改进由模型自身生成数据;数据增强通过数据标注、重构和协同标注提升模型性能。
- 偏好对齐:优化模型匹配人类偏好。通用模型蒸馏生成高质量偏好数据;领域模型蒸馏用特定数据集优化模型;模型自我改进通过反馈提升模型;数据增强通过多种技术增强模型对齐。
- 应用:在数学、科学、代码、医疗、法律等领域,通过合成专业数据提升LLMs性能,如在数学领域生成推理语料库,在医疗领域生成对话样本。
- 功能视角下的技术分析
- 理解功能:包括单模态和多模态理解。单模态理解通过生成指令示例等提升LLMs对文本的理解和标注能力;多模态理解利用LLMs生成跨模态数据提升模型对多模态信息的理解。
- 逻辑功能:涵盖代码逻辑、数学逻辑和推理。通过选择训练样本、生成API增强代码等提升模型逻辑推理能力,在数学和推理任务中也有多种方法增强模型性能。
- 记忆功能:分为程序记忆、语义记忆和情景记忆。程序记忆保存任务执行过程;语义记忆合成符号化数据保存知识;情景记忆记住与当前状态相关的上下文内容。
- 生成功能:包括内容生成和检索增强生成。内容生成生成文本和多模态内容;检索增强生成整合外部知识生成准确内容。
- 挑战与局限
- 合成与增强方法:依赖LLMs能力,影响模型训练评估,RLAIF存在不确定性和搜索复杂性,生成的逻辑路径不稳定。
- 数据质量:生成数据多样性不足,存在长尾现象,可靠性难以保证,与真实数据分布不一致。
- 影响:涉及隐私、安全和社会等方面问题,如隐私泄露、安全漏洞、法律纠纷和社会偏见等。
- 应用任务:合成数据泛化和迁移能力有限,在不同应用场景效果差异大。
- 未来方向:多模态合成整合多种数据类型;实时合成实现动态生成;领域模型蒸馏利用领域模型提升LLMs性能;大规模合成满足大模型预训练需求;建立鲁棒质量评估指标;注重伦理考量和负责任的数据处理。
摘要
The success of Large Language Models (LLMs) is inherently linked to the availability of vast, diverse, and high-quality data for training and evaluation. However, the growth rate of high-quality data is significantly outpaced by the expansion of training datasets, leading to a looming data exhaustion crisis. This underscores the urgent need to enhance data efficiency and explore new data sources. In this context, synthetic data has emerged as a promising solution. Currently, data generation primarily consists of two major approaches: data augmentation and synthesis. This paper comprehensively reviews and summarizes data generation techniques throughout the lifecycle of LLMs, including data preparation, pre-training, fine-tuning, instruction-tuning, preference alignment, and applications. Furthermore, We discuss the current constraints faced by these methods and investigate potential pathways for future development and research. Our aspiration is to equip researchers with a clear understanding of these methodologies, enabling them to swiftly identify appropriate data generation strategies in the construction of LLMs, while providing valuable insights for future exploration.
大型语言模型 (LLM) 的成功与用于训练和评估的大量、多样化和高质量数据的可用性有着内在的联系。然而,训练数据集的扩展明显超过了高质量数据的增长率,导致迫在眉睫的数据耗尽危机。这凸显了提高数据效率和探索新数据源的迫切需求。在这种情况下,合成数据已成为一种很有前途的解决方案。目前,数据生成主要包括两种主要方法:数据增强和合成。本文全面回顾和总结了 LLM 整个生命周期中的数据生成技术,包括数据准备、预训练、微调、指令调整、偏好对齐和应用。此外,我们讨论了这些方法当前面临的限制,并探讨了未来开发和研究的潜在途径。我们的愿望是让研究人员对这些方法有清晰的理解,使他们能够在构建 LLM 时迅速确定适当的数据生成策略,同时为未来的探索提供有价值的见解。
Introduction
近年来,大型语言模型 (LLM) 在各种任务中表现出无与伦比的能力 [9, 68, 166],牢固地确立了自己作为通用人工智能 (AI) 系统的支柱地位。这些模型在自然语言处理 [234, 262, 264]、计算机视觉 [100, 207, 239] 和其他研究领域 [36, 163, 229] 中取得了显著的改进,不断突破人工智能所能实现的界限。LLM 的成功在很大程度上归功于它们能够在大量数据中捕获复杂的模式和关系,使它们能够以非凡的熟练程度执行复杂的任务,例如自然语言推理 [39, 134]、视觉问答 [151, 158] 和视觉与语言导航 [125, 178]。
然而,LLM 的性能在很大程度上取决于它们所训练的数据的质量和数量 [2, 57, 58]。随着模型大小的指数级增长——现在达到数十亿甚至数万亿个参数 [105, 168, 268]——对大规模、多样化和高质量数据的需求不断增长,以确保跨各种任务和领域的稳健泛化。由于数据收集的高成本和隐私问题带来的问题,获取此类数据会带来重大挑战。此外,高质量数据的增长率远远落后于训练数据集的快速增长。如果这种趋势继续下去,可用数据最终将耗尽,这意味着如果数据效率没有显著提高或没有发现新的数据源,LLM 的增长可能会大大放缓。鉴于这些迫在眉睫的限制,数据合成和增强技术对于延长 LLM 的使用寿命和泛化变得至关重要。
- 传统的数据合成和增强技术 [34, 98, 135, 194],如图像旋转、裁剪、翻转和基于规则的自然语言生成,已被广泛用于解决这些数据限制。尽管这些方法在一定程度上提高了数据多样性并解决了数据稀缺问题,但它们仍然难以完全捕获真实世界数据的复杂性 [55]、大规模生成数据 [233] 和防御对抗性示例[162],限制了它们训练LLM的有效性。
为了克服这些挑战,研究人员越来越多地转向【面向 LLM 的数据合成和增强技术】,认识到 LLM 能够从大型数据集中对复杂模式进行建模,并生成与真实世界分布密切相关的合成数据,同时引入有价值的变化 [37, 175, 260]。这些研究减少了对手动整理数据集的依赖,并能够生成高质量、多样化的数据,以满足 LLM 在其整个生命周期和功能中不断变化的需求。为了了解这些工作的广度,我们通过使用 “data synthesis”、“data augmentation” 和 “large models” 等关键词搜索 Google Scholar 来收集与面向 LLM 的数据合成和增强相关的论文。截至 2024 年 10 月,我们确定了 250 篇独特的出版物,涵盖不同的研究主题和地点。总结这些努力为仍然存在的进展和挑战提供了重要见解,为未来的研究奠定了基础。尽管取得了这些进步,但在面向 LLM 的数据合成和增强方面仍然存在一些关键挑战。
- 滥用合成数据会带来风险,尤其是在传播错误信息和引发对操纵公众舆论的道德担忧方面。
- 此外,在使 AI 模型与人类价值观保持一致时,合成数据通常会引入歧义,从而导致有偏见的结果。
- 评估在合成数据上训练的模型也很复杂,因为传统基准可能无法完全捕捉这些数据的细微差别。
- 确保可靠性是另一个问题,因为原始数据集中的偏差和不准确可能会在合成数据中持续存在,从而限制其跨领域的泛化。
- 此外,LLM 的计算需求,以及处理不太常见的语言或新指令的挑战,使更广泛的应用程序变得复杂。
- 最后,缺乏一个统一的框架来组织和比较学术界和工业界提出的方法,仍然是研究人员驾驭这个快速发展的领域的障碍。
本调查旨在通过全面概述面向 LLM 的数据合成和增强技术来解决这些差距。如图 2 所示,与之前的调查 [43, 140, 147, 214, 271] 不同,这些调查主要侧重于应用这些方法来支持 LLM 的特定下游任务或特定阶段,我们的工作强调面向 LLM 的技术在提高 LLM 在其生命周期和核心功能的各个阶段的整体性能方面的直接作用。与侧重于合成数据生成实践以应对数据稀缺和隐私等挑战的工作 [137] 相比,我们的调查通过对旨在全面提高 LLM 性能的方法进行分类,超越了实践指导。我们不仅研究了数据生成,还研究了这些技术如何在所有阶段和功能中增强 LLM,为推进 LLM 提供了一个更加集成、以数据为中心的框架。具体来说,我们从两个关键角度系统地回顾和分类现有研究:LLM 的生命周期(从预训练到微调和应用)及其核心功能(理解、逻辑、记忆、 和世代)。通过围绕这些双重视角进行讨论,我们对不同方法的发展、相互联系和实际应用提供了更清晰的见解。此外,我们确定关键挑战,探索新兴的研究方向,并强调可能通过以数据为中心的方法进一步推动 LLM 绩效进步的潜在突破。
图 2:关于数据合成和增强技术的现有调查与我们的工作之间的比较。以前的调查主要集中在基于 LLM 的数据合成和增强方法上,旨在支持下游任务。相比之下,我们的工作强调面向 LLM 的数据合成和增强,系统地涵盖 LLM 的整个生命周期——从数据准备到应用程序——并解决 LLM 的核心功能,例如理解和生成,最终目标是通过以数据为中心的技术改进 LLM 本身。
通过全面概述面向 LLM 的数据合成和增强方法,本调查旨在阐明该领域的现状,并启发未来的研究方向,这些方向可以通过数据合成和增强方法进一步增强 LLM 能力。
我们将本调查的其余部分组织如下:第 2 节对面向 LLM 的数据合成和增强的主要领域进行了分类,并概述了基础技术。第 3 节从 LLM 的整个生命周期的角度讨论了当前面向 LLM 的数据合成和增强方法,详细介绍了这些技术如何在模型开发的不同阶段使用。在第 4 节中,我们从核心 LLM 功能的角度回顾了这些方法,探讨了数据合成和增强如何增强关键能力,如理解、逻辑、记忆和生成。第 5 节深入探讨了面向 LLM 的数据合成和增强的评估策略,解决了基准、评估指标以及用于评估和比较现有方法有效性的排行榜。最后,第 6 节提供了对面向 LLM 的数据合成和增强的挑战和新兴趋势的见解,为未来的研究方向提供了建议,这些方向可以通过数据合成和增强方法为 LLM 的持续发展做出贡献。