DeepSeek系列论文总结

最新推荐文章于 2025-03-14 21:05:20 发布

银河以北呀

最新推荐文章于 2025-03-14 21:05:20 发布

阅读量498

点赞数 3

文章标签：论文笔记

本文链接：https://blog.youkuaiyun.com/qq_57597568/article/details/145602372

版权

DeepSeek系列论文解读一之DeepSeek LLM

DeepSeek LLM

DeepSeek LLM: Scaling Open-Source Language Models with Longtermism

原文：https://arxiv.org/html/2401.02954v1/#S1

总结

该项目旨在推进开源大型语言模型(LLM)的长期发展。作者广泛研究了LLM的缩放规律，重点关注批量大小、学习率、数据和模型规模的缩放行为。从头开始构建开源LLM，收集了主要由中文和英文组成的2万亿令牌数据集。DeepSeek LLM模型在基准测试中表现出色，尤其在代码、数学和推理等领域优于LLaMA-2 70B。作者还讨论了他们的微调方法，包括监督式微调(SFT)和直接偏好优化(DPO)，这些方法使得DeepSeek Chat模型在开放式评估中优于GPT-3.5。

论文研究问题

规模扩展的规律 llms的扩展规律(以指导如何在保持性能的同时增加模型和数据的规模)；研究超参数(批量大小和学习率)扩展规律，并探索模型和数据规模的最优分配策略。
数据集的质量与多样性 强调数据集质量对模型扩展行为的影响；通过迭代改进数据集，提高数据质量，从而显著影响模型扩展的效率和效果。
模型架构与超参数的优化 基于 LLaMA 架构，对模型的宏观设计进行了微调，以优化训练和推理；通过实验确定最优的超参数设置。
模型训练与评估 介绍用于训练和评估 DeepSeek LLM 的高效框架，包括数据并行、张量并行、序列并行和 1F1B 流水线并行等技术；讨论模型训练的稳定性和效率问题。
模型的对齐 研究如何通过监督微调（SFT）和直接偏好优化（DPO）提高模型的对齐性，使其在生成响应时更加有帮助、无害和符合人类价值观。
模型的安全性 强调在模型开发过程中确保安全性的重要性；提出一种安全内容分类系统来评估模型的安全性。
模型的性能评估 论文通过在多个公共基准测试和开放性评估中对 DeepSeek LLM 进行评估，展示其在代码、数学和推理等领域的优越性能。

关键技术

总结本篇论文中提到的技术，供读者查漏补缺。

模型架构技术 ：Pre-Norm、RMSNorm、SwiGLU函数、旋转嵌入（Rotary Embedding）、分组查询注意力（GQA）、多头注意力（MHA）
训练优化技术 ：AdamW优化器、多步学习率调度器、FlashAttention、ZeRO-1
模型对齐技术 ：SFT、DPO