DeepSeek系列论文解读一之DeepSeek LLM
DeepSeek LLM
DeepSeek LLM: Scaling Open-Source Language Models with Longtermism
原文:https://arxiv.org/html/2401.02954v1/#S1
总结
该项目旨在推进开源大型语言模型(LLM)的长期发展。作者广泛研究了LLM的缩放规律,重点关注批量大小、学习率、数据和模型规模的缩放行为。从头开始构建开源LLM,收集了主要由中文和英文组成的2万亿令牌数据集。DeepSeek LLM模型在基准测试中表现出色,尤其在代码、数学和推理等领域优于LLaMA-2 70B。作者还讨论了他们的微调方法,包括监督式微调(SFT)和直接偏好优化(DPO),这些方法使得DeepSeek Chat模型在开放式评估中优于GPT-3.5。
论文研究问题
- 规模扩展的规律 llms的扩展规律(以指导如何在保持性能的同时增加模型和数据的规模);研究超参数(批量大小和学习率)扩展规律,并探索模型和数据规模的最优分配策略。
- 数据集的质量与多样性 强调数据集质量对模型扩展行为的影响;通过迭代改进数据集,提高数据质量,从而显著影响模型扩展的效率和效果。
- 模型架构与超参数的优化 基于 LLaMA 架构,对模型的宏观设计进行了微调,以优化训练和推理;通过实验确定最优的超参数设置。
- 模型训练与评估 介绍用于训练和评估 DeepSeek LLM 的高效框架,包括数据并行、张量并行、序列并行和 1F1B 流水线并行等技术;讨论模型训练的稳定性和效率问题。
- 模型的对齐 研究如何通过监督微调(SFT)和直接偏好优化(DPO)提高模型的对齐性,使其在生成响应时更加有帮助、无害和符合人类价值观。
- 模型的安全性 强调在模型开发过程中确保安全性的重要性;提出一种安全内容分类系统来评估模型的安全性。
- 模型的性能评估 论文通过在多个公共基准测试和开放性评估中对 DeepSeek LLM 进行评估,展示其在代码、数学和推理等领域的优越性能。
相关研究
大语言模型的扩展规律
- 首先研究了批量大小和学习率的扩展规律,发现它们与模型规模存在幂律关系。
- 对模型规模和数据规模的扩展规律进行了全面研究,并预测了大规模模型的性能。
- 发现不同数据集的扩展规律存在显著差异。高质量数据通常具有逻辑清晰性,并且在经过充分训练后预测难度较低。
数据集的构建与优化
- 收集了约2万亿个标记的预训练数据,主要包括中英文内容。这些数据经过多次迭代优化,不断提高数据质量。
- 采取了三个关键步骤来提升数据集的丰富性和多样性:去重、过滤和重组。去重和重组阶段确保了数据实例的多样性,而过滤阶段则提高了数据的信息密度,从而使模型训练更加高效有效。
模型架构与训练技术
-
介绍了LLaMa系列模型,它们采用了高效稳定的架构,构建了从7B到70B参数的高性能模型。采用了Pre-Norm结构、RMSNorm函数和SwiGLU激活函数等设计。
-
采用了多步学习率调度器,而不是常见的余弦学习率调度器。
模型对齐与安全性
- 采用监督微调(SFT)和直接偏好优化(DPO)提高模型的对齐性。
- 训练过程确保安全性,包括预训练、SFT 和 DPO 阶段。
模型评估
- 在公共基准测试(代码、数学、推理)中评估 DeepSeek LLM
- 使用“Do-Not-Answer”数据集评估模型的安全性。
关键技术
总结本篇论文中提到的技术,供读者查漏补缺。
-
模型架构技术 :Pre-Norm、RMSNorm、SwiGLU函数、旋转嵌入(Rotary Embedding)、分组查询注意力(GQA)、多头注意力(MHA)
-
训练优化技术 :AdamW优化器、多步学习率调度器、FlashAttention、ZeRO-1
-
模型对齐技术 :SFT、DPO