DeepSeek专题：DeepSeek-V1核心知识点速览

最新推荐文章于 2025-04-20 00:16:11 发布

原创最新推荐文章于 2025-04-20 00:16:11 发布 · 950 阅读

30 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #AIGC

DeepSeek 专栏收录该内容

5 篇文章

订阅专栏

AIGCmagic社区知识星球是国内首个以AIGC全栈技术与商业变现为主线的学习交流平台，涉及AI绘画、AI视频、大模型、AI多模态、数字人以及全行业AIGC赋能等100+应用方向。星球内部包含海量学习资源、专业问答、前沿资讯、内推招聘、AI课程、AIGC模型、AIGC数据集和源码等干货。

截至目前，星球内已经累积了2000+AICG时代的前沿技术、干货资源以及学习资源；涵盖了600+AIGC行业商业变现的落地实操与精华报告；完整构建了以AI绘画、AI视频、大模型、AI多模态以及数字人为核心的AIGC时代五大技术方向架构，其中包含近500万字完整的AIGC学习资源与实践经验。

论文题目：《DeepSeek LLM：Scaling Open-Source Language Models with Longtermism》

发表时间：2024年1月

论文地址：https://arxiv.org/pdf/2401.02954v1

在2024年1月前后的时间，基于解码器的Transformer大型语言模型（LLMs）的发展迅速，成为实现人工智能（AGI）的重要途径。尽管闭源产品如ChatGPT、Claude和Bard在计算资源和标注成本上具有优势，但开源LLMs的性能仍需提升。

本项目主要探索模型的缩放定律（scaling laws），并在两个广泛使用的模型配置（7B和67B）上进行扩展。通过预训练、监督微调（SFT）和直接偏好优化（DPO），提升模型在代码、数学和推理等领域的性能。

scaling laws：即模型性能与其规模（如参数数量）、训练数据集大小以及用于训练的计算资源之间存在的一种可预测的关系。这种关系通常表现为随着这些因素的增长，模型性能会按照一定的幂律进行改善。

DeepSeek LLM 67B在一系列基准测试中超越了LLaMA-2 70B，特别是在代码、数学和推理领域表现突出。此外，开放式评估揭示出DeepSeek LLM 67B聊天模型与GPT-3.5相比展现出更优的性能。

方法概述

DeepSeek LLM，旨在通过长期视角推动开源语言模型的发展。

数据收集与预处理：首先，开发了一个包含2万亿token的数据集，并对其进行去重、过滤和重新混合。去重阶段通过跨多个dump进行去重，过滤阶段通过详细的语义和语言学评估来增强数据密度，重新混合阶段则通过增加代表性不足领域的存在来平衡数据。

表1｜各种常见 Crawl dumps 去重比率

模型架构

DeepSeek LLM的微观设计主要遵循LLaMA的设计，采用Pre-Norm结构和RMSNorm函数，使用SwiGLU作为前馈网络的激活函数。宏设计上，DeepSeek LLM 7B有30层，而67B有95层，以优化训练和推理。

表2 | DeepSeek LLM系列模型的详细规格

超参数选择

初始标准差为0.006，使用AdamW优化器，超参数为β1=0.9，β2=0.95，权重衰减为0.1。采用多步学习率调度器，学习率在2000个预热步后达到最大值，然后逐步降低。

图1 | 使用不同学习率调度器或不同参数设置的学习率调度器的训练损失曲线。该模型大小为16亿参数，在包含1000亿个token的数据集上进行训练。

缩放定律

通过实验建模了计算预算C与最佳批量大小和学习率之间的幂律关系，公式如下：

图3 | 批量大小和学习率的缩放曲线。灰色圆圈代表泛化误差超过最小值不超过0.25%的模型。虚线代表拟合较小模型的幂律。蓝色星号代表DeepSeek LLM 7B和67B

模型和数据缩放

采用IsoFLOP剖面方法拟合扩展曲线，公式如下：

图4 | IsoFLOP曲线和最优模型/数据分配。IsoFLOP曲线中的指标是验证集上每个字节的比特数。最优模型/数据缩放曲线中的虚线代表拟合较小模型（灰色圆圈）的幂律

图5 | 性能缩放曲线。指标是验证集上的每秒比特数（bits-per-byte）。虚线代表拟合较小模型（灰色圆圈）的幂律。蓝色星号代表DeepSeek LLM 7B和67B。它们的性能符合缩放曲线规律。

论文总结

该论文提出了DeepSeek LLM，一个专注于长期主义（longtermism）的开源大规模语言模型框架，旨在通过高效的资源利用和可持续的技术路径推动语言模型的持续发展。论文的核心观点是，当前语言模型的开发往往过度依赖短期算力堆砌，而忽视了长期可扩展性、数据效率与生态协作。DeepSeek LLM通过以下创新实现这一目标：

高效训练架构：设计了一种动态稀疏化混合专家模型（Dynamic Sparse MoE），在保持模型性能的同时显著降低训练和推理成本；
数据长期价值挖掘：提出数据生命周期管理策略，通过多阶段数据筛选、知识蒸馏和增量学习机制，最大化数据集的复用效率；
可持续扩展框架：开发了参数可插拔的模块化架构，支持模型能力的渐进式扩展而无需全量重新训练；
开源生态协同：构建去中心化的开源协作平台，允许研究社区以分布式方式贡献算力、数据和模型组件。

实验表明，DeepSeek LLM在同等参数量下相比主流开源模型（如LLaMA、Falcon）实现了15-30%的推理效率提升，并在长上下文理解、多任务泛化等场景中表现优异。论文强调，通过技术路径的长期规划与开源协作，可以突破当前LLM发展对集中式算力的依赖，为人工智能的民主化发展提供新范式。这一工作为开源社区的可持续发展提供了重要的方法论和实践参考。