智能涌现:大模型是怎么练成的 - DeepSeek的技术发展历程

本周我们来看智能涌现-大模型是怎么练成的(3),聊聊DeepSeek发布的第一个模型,DeepSeek-LLM-V1的前因后果。

有用户反馈,之前两期内容有点太技术、太论文解读了,缺少从产品、商业、技术范式来更立体解读为什么在这个时间点,那个问题被提出来了,并且通过了为什么通过这样的一个方案来解决。

这一期,我们就从更立体、更深入浅出的角度来通过论文扒一扒技术背后的那些事儿。

这个工作,DeepSeek LLM: Scaling Open-Source Language Models with Longtermism,是deepseek第一个真正意义上发布的基座模型,这个工作并没有去追特别多热点和trick以提高模型的刷榜分数,反倒是在2023年底来回答一个最基础的问题:

模型该如何scaling?

开源模型该如何scaling?

从长期主义的角度来看,开源模型该如何scaling?

对的,你们看错,其实这个阶段deepseek要做的事儿,论文题目已经说得清清楚楚,明明白白。


时代背景:十字路口,“Scaling Law”该堆算力还是堆数据

当整个行业还在凭感觉分配千亿算力时,DeepSeek用一套精准的经验公式,将AI训练从“玄学炼丹”变成了“工程预演”。

2018年,当Transformer架构论文《Attention Is All You Need》发表时,很少有人能预测到,仅仅五年后,基于这一架构的大模型会掀起如此巨大的浪潮。从GPT-3到ChatGPT,从LLaMA到Claude,一场围绕人工智能制高点的竞赛在全球范围内展开。

在这场竞赛中,有一个问题始终困扰着所有参与者:如何在有限的算力预算下,最有效地训练出最智能的模型?

这听起来像是个工程优化问题,但在2023年底,它更像是一场豪赌。你投入数千万美元购买GPU,训练一个万亿参数的模型,却无法保证它一定比一个百亿参数的模型更聪明。早期研究给出的指导相互矛盾:OpenAI认为应该更倾向于扩大模型规模,而DeepMind的Chinchilla则建议增加数据量。

这是一个价值数十亿美元的不确定性。

1、 DeepSeek的开源“Scaling Law”与长期主义

想象一下,你是一位大模型创业公司的CTO,在2013年底,手握5000张A100显卡,准备训练下一个突破性模型。你的团队已经复现了LLaMA的架构,收集了海量数据,但面对一个最基本的问题却无从下手:

这5000张卡应该用来训练多大的模型?用多少数据训练它?

更令人头疼的是超参数的选择。学习率应该设为多少?批量大小如何确定?这些决定看似微小,却可能让你的训练在投入数百万美元后彻底失败。

这正是2023年开源大模型社区面临的窘境。Meta的LLaMA系列虽然成为了开源界的事实标准,但它更像是一个成功的“样本”,而非一套可复制的“方法论”。

社区热衷于训练7B、13B、70B等固定尺寸的模型。但对于如何科学的Scaling——如何在不同算力规模下做出最优决策——却缺乏系统性的理解。

DeepMind的Chinchilla论文曾试图回答这个问题,但其结论与OpenAI早期的研究存在显著差异。

更糟糕的是,这些研究都忽略了一个关键细节:传统上用于衡量模型规模的“参数量”指标,实际上严重低估了注意力机制的计算成本。

更严重的是,由于缺乏对Scaling的深刻度量和经验公式,往往在小尺寸模型上进行的算力预估,对于评估大尺寸模型的算力预估误差很大,而这种误差可能高达50%。

2、重新发明“六分仪”:非嵌入FLOPs/Token

DeepSeek团队面临的第一个挑战,就是重新定义衡量模型规模的“度量衡”。

他们提出了一个精妙的概念:非嵌入FLOPs/Token(M)。与传统的参数量(N)不同,这个指标精确地计算了模型处理每个token所需的浮点运算次数,包括了注意力机制的计算开销,但不包括相对廉价的词表计算。

这个看似微小的改变,带来了革命性的精确度。

在论文表3中,他们展示了不同衡量方式的差异:对于一个8层512维的小模型,传统参数量指标要么低估43%,要么高估32%。而在24层1024维的模型上,误差仍然高达20-40%。

这就好比用体重来衡量运动员的篮球水平——虽然相关,但严重不精确。

有了精确的度量工具,DeepSeek团队开始绘制真正的“航海图”:Scaling Law曲线。

3、绘制精准的“航海图”:从经验到公式

DeepSeek进行了大量实验,覆盖从1e17到3e20 FLOPs的计算预算范围,为每个预算设计了约10种不同的模型-数据分配方案。

结果令人震惊:他们发现了一个清晰且可预测的模式。

首先,他们拟合出了超参数的缩放规律。批量大小和学习率并非固定值,而是随着计算预算呈幂律增长。这意味着,当你从训练10亿参数模型转向训练1000亿参数模型时,不应该简单地沿用过去的超参数,而应该按照明确的数学公式进行调整。

更重要的是,他们找到了模型规模与数据规模的最优分配比例:

这个公式表明,在增加计算预算时,应该略微倾向于扩大模型规模(52.4%),而非单纯增加数据量(47.6%)。这一发现与Chinchilla的结论有所不同,但DeepSeek通过更精确的测量给出了自己的答案。

但最精彩的发现还在后面。

4、数据质量的“杠杆效应”:高质量数据需要更大的模型

在迭代数据集的过程中,DeepSeek团队观察到了一个有趣现象:数据质量越高,就越应该将计算预算分配给模型规模而非数据量。

他们比较了三种不同质量的数据集:

早期内部数据(质量较低)

当前内部数据(质量中等)

OpenWebText2(高质量,规模较小但经过精细处理)

结果如表4所示:随着数据质量提升,模型缩放指数从0.450增加到0.578,而数据缩放指数则从0.550降低到0.422。

这意味着,高质量数据就像高倍显微镜,需要更大的“镜头”(模型)才能充分发挥其价值。

这一发现可能解释了为什么早期研究在最优分配比例上存在分歧:他们使用了不同质量的数据集。这也为开源社区提供了一个间接评估数据质量的新方法:通过小规模实验观察缩放规律,就能判断数据的“潜力”。

5、拒绝“刷榜”:坚持真实智能

在追逐模型性能的竞赛中,一个常见的诱惑是“刷榜”(benchmark decoration)——通过针对性训练,让模型在标准测试集上获得高分,但这些改进往往不能转化为真实的用户体验。

DeepSeek团队展现了令人敬佩的克制。

他们发现,加入2000万个选择题(MC)样本,能让模型在MMLU(大规模多任务语言理解)测试中的得分从49.4猛增到60.9,但在需要生成式回答的TriviaQA测试中,性能没有任何提升。

更令人担忧的是,人类评估显示,模型并没有因此变得“更聪明”。

“如果我们只看MMLU分数,可能会认为模型能力大幅提升,”论文作者写道,“但用户在实际对话中不会感受到这种提升。”

基于这一洞察,DeepSeek做出了一个大胆决定:在预训练和微调阶段完全排除选择题数据。这虽然可能让他们在部分榜单上的排名不那么耀眼,但确保了模型学习的是真正的理解能力,而非应试技巧。

6、参数调优:多步学习率调度的秘密

在技术细节上,DeepSeek也做出了精妙的选择。

与大多数研究使用余弦学习率调度不同,他们选择了多步学习率调度(multi-step learning rate scheduler):在80%的训练tokens后将学习率降至31.6%,在90%后再降至10%。

为什么选择这种看似不那么“优雅”的方案?

虽然训练过程中的损失下降曲线不同,但两种调度器的最终性能几乎完全相同。多步调度的优势在于可重用性——你可以从一个训练阶段无缝过渡到下一个阶段,而无需重新进行学习率预热。

这是一个典型的工程思维:在性能持平的情况下,选择更具灵活性和实用性的方案。

这种实用性思维贯穿了整个项目。他们的训练框架HAI-LLM每5分钟异步保存一次模型检查点,“在最坏的硬件或网络故障情况下,我们最多只会损失5分钟的训练进度”。这种工业级的可靠性设计,对于需要连续运行数周甚至数月的大模型训练至关重要。

7、结果验证:多个数据集,全方面测评

DeepSeek最终训练了两个模型:7B参数和67B参数,都在2万亿token的双语数据上进行了训练。

评估结果验证了他们方法的有效性:

在数学推理(GSM8K、MATH)、代码生成(HumanEval、MBPP)和中文理解(C-Eval、CMMLU)等多个领域,DeepSeek 67B都显著超越了LLaMA 2 70B。

更重要的是,他们的预测与现实高度吻合。如图5所示,基于小规模实验拟合的缩放曲线,准确地预测了67B模型的最终性能。他们用1/1000的计算预算,就预测出了大规模训练的结果。

这种预测能力具有革命性意义。它意味着,未来在规划更大规模的训练时,DeepSeek可以基于小规模实验做出可靠决策,大幅降低试错成本。

8、长期主义:从“粗暴炼丹”到“精打细算”

DeepSeek论文的标题中有一个关键词:Longtermism(长期主义)。这不仅是口号,而是贯穿整个研究的方法论。

他们不追求短期的榜单排名,而是构建了一套可验证、可扩展的模型Scaling方法论。他们公开了超参数缩放公式、去重策略和训练细节,为整个开源社区和商业模型厂家提供了宝贵的“避坑指南”。

真正的竞争优势不是更多的显卡,而是更聪明的使用方式

如果把大模型训练比作淘金,DeepSeek不是找到了更大的金矿,而是发明了精准的探矿公式。他们告诉整个行业:不要盲目挖山,先算准矿脉,再用最省油的方式,挖出含金量最高的矿石。


以上就是DeepSeek的第一个基座模型DeepSeek-V1:一个基于2T中英文混合tokens海量数据集、从头训练的开源模型。它不仅是一个模型,更是一套完整的方法论——DeepSeek-V1深入拆解了超参数的选择逻辑、重新校准了困扰行业的Scaling定律,并提出了一套全新的“模型-数据”最优配比策略。

更重要的是,DeepSeek-V1建立了一套可预测的工程方法:在给定计算预算下,能够提前预测出近似最优的批次大小与学习率,让大规模训练从“炼丹”走向“精密制造”。

DeepSeek-V1也揭示了一个关键洞察:Scaling的本质与数据质量深度绑定——不同研究中结论各异的根本原因,很可能就藏在数据密度的差异里。在这一认知的指引下,采用最优超参数完成了预训练,并开展了全面而诚实的评估,坚决杜绝一切“刷榜”行为与隐性操作。

与此同时,DeepSeek也清醒地认识到:DeepSeek-V1对话模型仍与其他大语言模型有着相同的局限——包括知识更新滞后、可能生成不实信息、以及存在幻觉生成等固有挑战。

而这,恰恰是“长期主义”的起点。

解决完最基本的Scaling方法论之后,DeepSeek的探索才刚刚真正展开——将继续在数学推理、代码生成、逻辑证明、MoE高效架构等多个维度持续突破。这不仅是技术的延伸,更是一场从“如何训练”到“如何更聪明地训练”的范式进化。

这条路没有终点,但DeepSeek-V1已看清方向。

​最后

我在一线科技企业深耕十二载,见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事,早已在效率与薪资上形成代际优势,我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。

我整理出这套 AI 大模型突围资料包:

  • ✅AI大模型学习路线图
  • ✅Agent行业报告
  • ✅100集大模型视频教程
  • ✅大模型书籍PDF
  • ✅DeepSeek教程
  • ✅AI产品经理入门资料

完整的大模型学习和面试资料已经上传带到优快云的官方了,有需要的朋友可以扫描下方二维码免费领取【保证100%免费】👇👇
​​
在这里插入图片描述

为什么说现在普通人就业/升职加薪的首选是AI大模型?

人工智能技术的爆发式增长,正以不可逆转之势重塑就业市场版图。从DeepSeek等国产大模型引发的科技圈热议,到全国两会关于AI产业发展的政策聚焦,再到招聘会上排起的长队,AI的热度已从技术领域渗透到就业市场的每一个角落。

img
智联招聘的最新数据给出了最直观的印证:2025年2月,AI领域求职人数同比增幅突破200% ,远超其他行业平均水平;整个人工智能行业的求职增速达到33.4%,位居各行业榜首,其中人工智能工程师岗位的求职热度更是飙升69.6%。

AI产业的快速扩张,也让人才供需矛盾愈发突出。麦肯锡报告明确预测,到2030年中国AI专业人才需求将达600万人,人才缺口可能高达400万人,这一缺口不仅存在于核心技术领域,更蔓延至产业应用的各个环节。

在这里插入图片描述

​​
在这里插入图片描述

资料包有什么?

①从入门到精通的全套视频教程⑤⑥

包含提示词工程、RAG、Agent等技术点
在这里插入图片描述

② AI大模型学习路线图(还有视频解说)

全过程AI大模型学习路线

在这里插入图片描述

③学习电子书籍和技术文档

市面上的大模型书籍确实太多了,这些是我精选出来的

在这里插入图片描述

④各大厂大模型面试题目详解

在这里插入图片描述

⑤ 这些资料真的有用吗?

这份资料由我和鲁为民博士共同整理,鲁为民博士先后获得了北京清华大学学士和美国加州理工学院博士学位,在包括IEEE Transactions等学术期刊和诸多国际会议上发表了超过50篇学术论文、取得了多项美国和中国发明专利,同时还斩获了吴文俊人工智能科学技术奖。目前我正在和鲁博士共同进行人工智能的研究。

所有的视频教程由智泊AI老师录制,且资料与智泊AI共享,相互补充。这份学习大礼包应该算是现在最全面的大模型学习资料了。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目,无论你是小白还是有些技术基础的,这份资料都绝对能帮助你提升薪资待遇,转行大模型岗位。

在这里插入图片描述
在这里插入图片描述

智泊AI始终秉持着“让每个人平等享受到优质教育资源”的育人理念‌,通过动态追踪大模型开发、数据标注伦理等前沿技术趋势‌,构建起"前沿课程+智能实训+精准就业"的高效培养体系。

课堂上不光教理论,还带着学员做了十多个真实项目。学员要亲自上手搞数据清洗、模型调优这些硬核操作,把课本知识变成真本事‌!

​​​​在这里插入图片描述
在这里插入图片描述

如果说你是以下人群中的其中一类,都可以来智泊AI学习人工智能,找到高薪工作,一次小小的“投资”换来的是终身受益!

应届毕业生‌:无工作经验但想要系统学习AI大模型技术,期待通过实战项目掌握核心技术。

零基础转型‌:非技术背景但关注AI应用场景,计划通过低代码工具实现“AI+行业”跨界‌。

业务赋能 ‌突破瓶颈:传统开发者(Java/前端等)学习Transformer架构与LangChain框架,向AI全栈工程师转型‌。

👉获取方式:

😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓**

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值