《DeepSeek LLM :Scaling Open-Source Language Models with Longtermism》文章阅读解析

摘要

本文深入研究缩放定律的研究,并且提出了独特的发现,这些发现促进了两种普遍使用在开源大模型尺寸(7B和67B)缩放研究,提出了DeepSeek LLM -- 一个致力于以长期视角推进的开源语言模型。文中提出了2万亿tokens的数据集,实验表明,DeepSeek LLM取得不错的成绩。

简介

在本文中,广泛研究了语言模型的缩放行为,并将发现应用于两种广泛使用的大型模型配置,即7B和67B。本文研究旨在为将来的开源LLMS缩放奠定基础,为该领域的进一步发展铺平了道路。具体而言,首先检查了批量规模和学习率的缩放定律,并以模型大小找到了它们的趋势。在此基础上,对数据和模型尺度的缩放定律进行了全面研究,成功揭示了最佳模型/数据扩展分配策略,并预测了大规模模型的预期性能。

DeepSeek LLM在模型架构上参考了LLaMA,但用多步学习率调度程序代替了余弦学习率调度程序。文中提出了以非嵌入FLOPs/token为单位来表示模型规模的方法。

预训练

训练数据

为了增强数据集的丰富性和多样性,从诸多可信的数据集中获取数据,然后将数据进行三个步骤的筛选:去重、过滤、重新混合。

tokenizer采用Byte-level Byte-Pair Encoding (BBPE) algorithm based on the tokenizers library。

tokenizer在24G的多种语言库训练,设置了100000个常用tokens以及15个特殊tokens。

训练技术

该模型使用了AdamW优化器,并采用了多步学习率衰减策略来控制学习率的变化。在训练过程中,还使用了数据并行、张量并行、序列并行和1F1B管道并行等多种技术来提高训练效率。此外,该模型还支持动态调整计算集群负载,以便更好地应对硬件或网络故障等意外情况。最后,为了保证模型的稳定性,该模型在训练时使用了bf16精度,但在梯度累积时仍采用fp32精度。

优化大语言模型规模和数据

出通过增加计算预算、模型规模和数据规模等方式可以提高模型性能。此外,作者还对超参数进行了研究,提出了计算预算与最优批量大小和学习率之间的关系,从而建立了确定最佳超参数的实证框架。最后,作者还探讨了数据质量对模型扩展的影响,并提出高质量的数据可以驱动更大规模模型的训练。

模型结构

介绍了两种体量的DeepSeek LLM ,7B和67B,微观细节设计很大程度上参考了LLaMA架构,采用了Pre-Norm结构(即在每一层的输入之前进行归一化操作,而不是在输出之后进行归一化(Post-Norm)。Pre-Norm 结构在近年来被广泛应用于Transformer模型及其变体中,因为它能够有效缓解梯度消失问题,并提升训练的稳定性),使用RMSNorm作为归一化函数,并且使用SwiGLU作为前馈网络的激活函数。为了优化推理消耗,67B的模型采用GroupedQuery Attention(GQA)机制而不是传统的多头注意力机制Multi-Head Attention (MHA)。

6B和67B的模型区别主要是模型深度的拓展,而不是常见的扩大FFN层中间宽度。

缩放定律

本文在缩放定律上的研究,贡献和发现可以被总结为以下三点:

• We established the scaling laws for hyperparameters, providing an empirical framework for determining the optimal hyperparameters.

• Instead of model parameters N, we adopt non-embedding FLOPs/token M to represent the model scale, leading to a more accurate optimal model/data scaling-up allocation strategy and a better prediction of generalization loss for large-scale models.

• The quality of pre-training data impacts the optimal model/data scaling-up allocation strategy. The higher the data quality, the more the increased compute budget should be allocated to model scaling.

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值