导读
昨天DeepSeek 发布了新一代大模型DeepSeek-V3,拥有671B 参数的混合专家(MoE)大语言模型,推理时激活37B 亿参数,在多项评估中超越了其他开源模型,并接近领先的闭源模型,且训练过程稳定高效。
DeepSeek V3
核心看点:
-
模型架构:整体上依然基于Transformer 架构,同时还继承了在DeepSeek-V2 中经受考验的Multi-head Latent Attention (MLA)和DeepSeekMoE 模块,此外还引入了无辅助损失的负载均衡策略和Multi-Token Prediction。该模型在 14.8 万亿个高质量 token 上进行预训练,并通过监督微调和强化学习进一步提升性能。
-
无辅助损失负载均衡:DeepSeek-V3 提出了一种新颖的无辅助损失负载均衡策略,通过为每个专家引入一个可学习的偏置项(bias term),并将其加到token-to-expert 的亲和度得分上,以动态调整路由决策,从而实现负载均衡。这种方法避免了使用辅助损失,并在训练过程中动态调整偏置项,以保持负载均衡,同时避免了性能下降,还不会丢弃token。
-
多Token 预测 (MTP) :DeepSeek-V3 采用了一种新颖的多 Token 预测训练目标,通过引入多个 MTP 模块,每个模块负责预测一个额外Token,与传统并行预测多个 Token 的方法不同,DeepSeek-V3 采用顺序预测的方式,并保留每个预测深度的完整因果链。这样可以增强训练信号,提高数据效率,并可能使模型更好地预先规划其表示,以更好地预测未来的Token。每个模块包含共享的Embedding和输出Head,外加一个投影矩阵和Transformer block。在选取1个MTP 模块来预测未来的2个 token,从结果来看第二个token的接受度在85%-90%,非常高,而且在多个topic 上都表现出了一致、可靠的高接受率,极大地提升了推理解码速度,TPS 提升了1.8倍。
-
知识蒸馏:DeepSeek-V3 还将DeepSeek R1 系列模型中的长链推理(CoT)能力蒸馏到自身,显著提升了其推理性能,同时保持了对输出风格和长度的控制。
-
极致的大模型训练工程优化:DeepSeek-V3 采用了 FP8 混合精度训练框架以及相关的量化和乘法精度提升策略,并设计了DualPipe 训练框架,通过计算和通信的重叠编排、高效的跨节点通信策略来提升整体的训练效率并降低成本;还通过在反向传播时重新计算RMSNorm、MLA Up-Projection,CPU上维护EMA参数、共享Embedding和输出头等策略优化内存使用,这些工程优化对于大模型训练非常重要。
总结
在蒸馏 DeepSeek-R1 的过程中,作者还发现了一个有意思的tradeoff,蒸馏有助于模型性能,但同时会导致输出变长,需要做好平衡。此外,从推理模型进行知识蒸馏也是一个有前景的后训练优化方向,其有效性也显示出长CoT 蒸馏可以帮助其他需要复杂推理的认知任务提升性能表现。
引用:
- DeepSeek-V3 Technical Report:https://github.com/deepseek-ai/DeepSeek-V3/blob/main/DeepSeek_V3.pdf
相关阅读:
零基础入门AI大模型
今天贴心为大家准备好了一系列AI大模型资源,包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
有需要的小伙伴,可以点击下方链接免费领取【保证100%免费
】
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费
】🆓
1.学习路线图
第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;
第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;
第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;
第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;
第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;
第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;
第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。
2.视频教程
网上虽然也有很多的学习资源,但基本上都残缺不全的,这是我自己整理的大模型视频教程,上面路线图的每一个知识点,我都有配套的视频讲解。
(都打包成一块的了,不能一一展开,总共300多集)
3.技术文档和电子书
这里主要整理了大模型相关PDF书籍、行业报告、文档,有几百本,都是目前行业最新的。
4.LLM面试题和面经合集
这里主要整理了行业目前最新的大模型面试题和各种大厂offer面经合集。
👉学会后的收获:👈
• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;
• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;
• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;
• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。
1.AI大模型学习路线图
2.100套AI大模型商业化落地方案
3.100集大模型视频教程
4.200本大模型PDF书籍
5.LLM面试题合集
6.AI产品经理资源合集
5.免费获取
这份完整版的大模型 AI 学习资料已经上传优快云,朋友们如果需要可以微信扫描下方优快云官方认证二维码或者点击以下链接都可以免费领取【保证100%免费】