大家好,我是凡人。
临近年关的时候,国外AI圈突然炸了锅,一群国外媒体开始疯狂报道一家名叫深度求索的中国企业,他们大模型DeepSeek V3,性能直逼claude 3.5 sonnet 等一众国外主流大模型,而训练大模型花费却不足他们的十分之一,这着实让昂着头走路的美国AI头部企业跌了大跟头。
新出的DeepSeek - R1性能更是直接与满血版gpt-o1拉满,免费使用更是让200美元/月成了笑话,下面咱们就一起梳理DeepSeek这段时间到底经历了什么?
一、不声不响的崛起?
2023年成立的深度求索(DeepSeek),自诞生起就带着浓厚的学术底色。创始人CEO梁文锋出生在广东省的一个五线城市,是地地道道的80后,父亲是一名小学老师,2002 年,梁文锋考入浙江大学电子信息工程专业,并在随后的几年里继续深造,最终于 2010 年获得信息与通信工程硕士学位。
-
2008 年:开始致力于量化对冲领域的研究。
-
2015 年:创立幻方量化,开始在量化投资领域崭露头角。
-
2016 年:幻方量化首次上线运行 AI 策略。
-
2017 年:幻方量化实现投资策略全面 AI 化。
-
2019 年:幻方量化管理规模已超 100 亿,成为国内量化私募 “四巨头” 之一。
-
2023 年 7 月:创立深度求索 DeepSeek,专注于 AI 大模型的研究和开发。
其实就专业方面梁文峰绝对是AI方面的老炮,所以面对外界的质疑,不是不能光看谁霸占这个领域时间长就可以随意的质疑和打压其他产品。
我们再来看看深度求索公司成长历程:
-
2023年7月:DeepSeek 成立,由多位来自中国顶尖高校和科技企业的 AI 专家联合创立。
-
2023年11月2日:发布首个开源代码大模型 DeepSeek Coder,支持多种编程语言的代码生成、调试和数据分析任务。
-
2023年11月29日:推出参数规模达 670 亿的通用大模型 DeepSeek LLM,包括 7B 和 67B 的 base 及 chat 版本。
-
2024年5月7日:发布第二代开源混合专家(MoE)模型 DeepSeek-V2,总参数达 2360 亿,推理成本降至每百万 token 仅 1 元人民币。
-
2024年12月26日:发布 DeepSeek-V3,总参数达 6710 亿,采用创新的 MoE 架构和 FP8 混合精度训练,训练成本仅为 557.6 万美元。
-
2025年1月20日:发布新一代推理模型 DeepSeek-R1,性能与 OpenAI 的 o1 正式版持平,并开源。
-
2025年1月26日:DeepSeek 登顶美区 App Store 免费榜第六,超越 Google Gemini 和 Microsoft Copilot 等产品。
-
2025年1月27日:仅仅1天 DeepSeek 就登顶国内美区 App Store 免费榜榜首。
所以从里程碑可以看的出DeepSeek的扬名,也并非是一日之功,反而有种“宝剑锋从磨砺出,梅花香自苦寒来”的意味。
二、DeepSeek怎么能这么火爆?
一)性能比肩o1费用仅十分之一?
在AI领域混久了的同学,肯定把 OpenAI 的 GPT 系列模型视为行业标杆。但这几天,国内的 AI 新秀 DeepSeek 凭借卓越性能,成功的比肩了 GPT-o1 完整版,具体咱们从从6个方面看看:
1. 高效架构设计
DeepSeek-V3 采用了创新的 Multi-head Latent Attention (MLA) 架构,这种架构通过对注意力键和值进行低秩联合压缩,减少了推理时的 KV 缓存,同时保持了与标准多头注意力(MHA)相当的性能。此外,DeepSeekMoE 的引入也是关键,它采用了更细粒度的专家分配策略,每个 MoE 层包含 1 个共享专家和 256 个路由专家,每个令牌激活 8 个专家,提升了计算效率和任务适应性。
2. 强化学习驱动的推理能力
DeepSeek-R1 在后训练阶段大规模使用了强化学习(RL)技术,通过 Group Relative Policy Optimization(GRPO)算法,实现了推理能力的显著提升。GRPO 算法通过群体奖励优化策略模型,奖励设计包括准确性奖励和格式奖励,使得模型在仅有极少标注数据的情况下,也能表现出色。此外,DeepSeek 设计了包含高质量推理链的冷启动数据集,提高了模型的可读性和训练初期的稳定性。
3. 数据利用和蒸馏技术
DeepSeek 在训练过程中使用了大量高质量的数据,包括专业数据和冷启动数据,为模型的训练提供了丰富的信息。此外,DeepSeek 通过从 DeepSeek-R1 系列模型中蒸馏推理能力,即从 R1 模型中提取关键的推理模式和解题策略作为数据微调 DeepSeek 主干模型,并采用循序渐进课程学习等先进方法,显著提升了模型的推理性能。
4. 成本控制和算力优化
DeepSeek-V3 的训练成本仅为 557.6 万美元,远低于其他同级别模型。这得益于 DeepSeek 在训练过程中使用了 2048 块英伟达 H800 GPU,而不是更昂贵的 H100 GPU。此外,DeepSeek 的训练效率为 Meta 的 11 倍,表明其在算力利用上具有显著优势。
5. 算法创新
DeepSeek 的算法创新也是其性能提升的重要因素。通过自研的 MLA 架构,DeepSeek 实现了算力效率的指数级提升。而且,DeepSeek 采用了动态计算路由技术,进一步优化了模型的推理能力。
6. 性能评估
在多个基准测试中,DeepSeek-R1 的性能与 OpenAI 的 o1 正式版相当。例如,在 AIME 2024 基准测试中,DeepSeek-R1 的 pass@1 分数显著增加,从最初的 15.6% 跃升到 71.0%,达到了与 OpenAI-o1-0912 相当的性能水平。在数学和编程任务上,DeepSeek-R1 表现优异,甚至在某些指标上超过了 OpenAI 的 o1 预览版。
二)发布即开源
DeepSeek V3版本同步发布就开源了,同时还满足MIT开源协议,也就是可以商用,这就是格局。
而R1版本更是开源了多个蒸馏版本的大模型,以方便全球AI爱好者们在本地部署学习使用。
三)同行衬托
就在全世界AI爱好者在惊叹DeepSeek的优秀能力时,就是有不要脸的要来横插一脚,当然DeepSeek 的崛起对 OpenAI 等厂商构成了直接竞争威胁。
DeepSeek 的高性能低成本策略吸引了大量用户和企业,导致其他厂商的市场份额受到冲击,一切都是利益,而且更为可笑的是它居然拿公开的蒸馏技术说事情,但这反而让DeepSeek更具知名度,甚至各国政府都不得不出台政策来阻止这次DeepSeek的技术风暴。
三、越封锁?越发展?
DeepSeek在经历了大量国外攻击后,直接封闭了国外手机号注册接口,确确实实来了一波反制,也越发确定了要继续发展下去的决心,我们就是不怕封锁,越是封锁我们发展的越快:
-
航天技术:美国通过沃尔夫条款禁止与中国进行任何形式的双边合作,包括国际空间站项目。中国从零开始,自主研发航天技术,成功发射多颗人造卫星,实现载人航天和探月计划。2021年建成天宫空间站,展示自力更生实力。
-
卫星导航系统:1996年台海危机期间,美国切断对中国GPS信号,中国决心自主研发导航系统,经20多年努力,北斗导航系统全球组网,成全球四大卫星导航系统之一。
-
芯片技术:2019年,美国禁止向华为等中国公司提供芯片,中国政府和企业加大半导体行业投入,中芯国际、华为海思等企业迅速崛起,逐步实现芯片自主研发和生产。
-
操作系统:2018年,美国对中兴通讯实施全面制裁,禁止美企向中兴提供软硬件产品,中国科技公司加快自研操作系统和软件步伐,华为推出鸿蒙系统。
-
高端材料:美国对中国实施高端材料封锁,禁止出口关键半导体材料和高性能金属,中国加强高端材料研发和生产,逐步打破对国外材料依赖。
-
航空技术:美国对中国实施长达几十年航空技术限制,禁止出口先进航空发动机和航天器技术,中国自主研发“C919”大飞机和“涡扇-10”发动机。
-
半导体设备:美国对中国实行半导体制造设备禁运政策,禁止出口先进芯片制造设备,中国加大对半导体设备研发投入。
-
军事技术:美国对中国实施长期军事技术封锁,禁止出口先进军事装备和技术,中国加强国防科技自主研发,成功研制“歼-20”隐形战斗机、“东风-21D”反舰导弹等先进装备。
而就在这次DeepSeek-R1发布没多久,全世界多个地区就发出了对它的限制。
当然随着我国AI大模型技术的不断更新,类似的限制以后会越来越多,越来越明显,限制也会越来越严重。
AI领域的战争也会越来越激烈,而我们最擅长的就是突破逆境,不畏惧任何势力,朝着目标不断前行,所以朋友们请我们一起守护好这些为高新技术做出贡献的优秀企业,他们在科技上每多前进一分,我们在国际上的地位就更强一分。
怎么样今天的内容还满意吗?再次感谢朋友们的观看,关注GZH:凡人的AI工具箱,回复666,送您价值199的AI大礼包。最后,祝您早日实现财务自由,还请给个赞,谢谢!