DeepSeek技术跟踪和本地部署实践

        春节期间,我也紧跟技术潮流,跟踪学习了并部署了一下DeepSeek,应该说DeepSeek是中国人在AI领域一次技术创新,甚至超越,给各大AI公司提供了一条全新的赛道,其推出的强化学习等技术提醒大家AI不单单是Transformer架构下的堆算力、堆数据,还需要在算法和工程落地方面的不断创新实践,下面具体来说说,供大家参考学习。DeepSeek(深度求索)是一家杭州地区量化私募巨头幻方量化旗下的AI公司,成立于2023年5月,专注于人工智能技术研发,致力于打造高性能、低成本的AI模型。目前发布的产品中最突出的是DeepSeek-V3 和 DeepSeek-R1。

一、主要历程

2024 年 06 月 17 日,发布 DeepSeek-Coder-V2,是开源的 MoE 代码语言模型。
2024 年 12 月 13 日,发布用于高级多模态理解的专家混合视觉语言模型 DeepSeek-VL2。
2024 年 12 月 26 日,DeepSeek-V3 正式发版,并开源。
2025 年 01 月 20 日,发布新一代推理模型 DeepSeek-R1,并开源。
2025 年 01 月 26 日,DeepSeek 登顶美区 App Store 免费榜第六,超越 Google Gemini 和 Microsoft Copilot 等产品。R1的预训练费用只有557.6万美元,在2048块英伟达H800 GPU集群上运行55天完成,仅是OpenAI GPT-4o模型训练成本的不到十分之一,自发布以来致使英伟达股价下跌近17%,市值蒸发近6000亿美元,整个美股蒸发1万亿以上,创下美股史上最大跌幅。

二、主要产品

目前推出多个开源模型:DeepSeek Coder、DeepSeek LLM、DeepSeek-V2、DeepSeek-V3 和 DeepSeek-R1。目前大范围使用的产品主要是后两个(V3和R1),因此这里重点介绍DeepSeek-V3 和 DeepSeek-R1。

1.DeepSeek V3

参数量为6710亿,激活参数为370亿。在14.8T高质量token上进行了预训练,性能表现达到开源SOTA水平,超越Llama 3.1 405B和GPT-4o等顶尖模型,在数学能力方面表现尤为突出。训练成本仅需约558万美元,相比传统模型大幅降低,并且完全开源,训练细节公开。

2.DeepSeek R1

基于开源大模型,比如Qwen/Llama等,支持模型蒸馏,蒸馏出的1.5B、7B、8B、14B等小模型非常适合在本地部署,尤其适合资源有限的中小企业和开发者。基于强化学习(RL)驱动,专注于数学和代码推理,支持长链推理(CoT),适用于复杂逻辑任务。
两者对比图

三、DeepSeek的主要特点

1.模型架构更优:DeepSeek R1采用了混合专家(MoE,Mixture of Expert)架构,拥有6710亿个参数,但每次激活的参数仅为370亿。这种架构在保持高性能的同时,大幅降低了计算成本。而OpenAI O1则基于传统的Transformer架构,依赖大规模的参数和数据进行训练。
2.聚焦RL训练方式:DeepSeek R1主要采用强化学习(RL)方法进行训练,通过主动学习和迁移学习,能够更高效地利用数据和计算资源。相比之下,OpenAI O1的训练方式较为传统,主要依赖大量的监督微调。
3.高推理生成速度:DeepSeek R1在推理能力上表现出色,例如在精确计算质数的问题上,能够准确给出第十亿个质数。在AIME、MATH-500和SWE-BENCH等基准测试中,DeepSeek R1也展现了更快的响应时间和更高的精度。借助多头潜在注意力(MLA),DeepSeek通过一种特殊的低秩联合压缩技术,减少了在推理过程中需要处理的数据量。这就像是把一个大包裹压缩成一个小包裹,运输起来更快更省力;通过动态调整路由偏置,DeepSeek能够根据任务的复杂程度,自动调整数据处理路径,避免了不必要的计算,提高了效率。
4.支持多语言能力:OpenAI O1在多语言处理方面表现较为出色,能够处理复杂的语言结构和跨语言翻译,而DeepSeek R1在多语言能力方面相对弱一些。在中文语言处理方面,相比GPT-4o和Claude 3.5,DeepSeek-V3具有更好的表现。
5.训练成本更低:DeepSeek R1的训练成本较低,预算约为560万美元,仅使用了2000个GPU,相比之下,OpenAI O1的训练成本超过1亿美元。训练成本相对于后者的1/20倍,相当于Llama 3的1%。
6.开源模式使得二次开发拓展成本低:DeepSeek R1是开源的,用户可以在MIT许可下自由使用和修改,这使得更多的企业和开发者能够低成本地使用、改进和拓展该模型。而OpenAI O1是专有模型,使用成本较高。
7.模型知识蒸馏技术:DeepSeek R1将大模型的推理能力迁移到小模型中,使得小模型在资源有限的场景中也能保持较高的推理精度。这就像是把一个大机器的功能浓缩到一个小机器里,小机器也能高效工作。
8.FP8混合精度训练方式:DeepSeek使用了一种特殊的计算方式,减少了计算过程中需要的内存和带宽。这就像是用更小的管道运输相同的水量,节省了资源,提高了效率。
9.多词元预测(MTP)技术:传统大模型回答用户需求时只预测下一个token,V3通过MTP技术同时预测下2个token,这就像是同时处理多个任务,而不是一个接一个地处理,大大提高了处理速度。这里的关键是第二个预测token的准确性问题(即「接受率」,预测的token能被最终采用的比例)。DeepSeek评估称,在不同生成主题中,其模型所生成的第二个token的接受率达到了85%至90%。这种高接受率意味着V3能够以接近传统单token预测模式两倍的速度来生成文本。

四、DeepSeek的主要技术创新或优势

1.高性能模型架构:DeepSeek-V3拥有6710亿参数的MoE架构,激活参数370亿,在14.8万亿token数据上进行预训练。这种庞大的模型规模和海量的训练数据,使其在自然语言处理任务中表现出色,能够处理复杂的语义理解和生成任务。
2.创新架构:DeepSeek采用了多头潜在注意力(MLA)、混合专家架构(MoE)和FP8混合精度训练等技术,这些创新使得模型在性能和效率上得到了显著提升,目前支持在NVIDIA和AMD GPU以及华为Ascend NPU上运行。
3.强化学习:DeepSeek-R1在后训练阶段广泛应用了强化学习技术,放弃了RLHF的HF(人类反馈)部分,允许模型在获取更少标注数据的情况下,实现显著的性能提升。
4.训练成本和调用成本低:DeepSeek的训练成本仅为OpenAI同类模型的十分之一,API用户使用成本仅为OpenAI的5%。这种低成本、高性能的产品定位,让DeepSeek赢得了中小企业和多数开发者的青睐。DeepSeek-V3的API定价远低于竞争对手,例如每百万token的输入成本仅为0.1元人民币,而Claude 3.5则需要0.5美元。具有高性价比。
5.推理生成效率高:DeepSeek在推理效率上具有显著优势,能够快速响应用户请求,为用户提供更加流畅的交互体验。DeepSeek在回应用户过程中,会将思维链条(Chain of Thought,CoT)完全展示出来,而这类思考过程一般是各大人工智能公司想要保密的重要数据资产。
6.开源模式:DeepSeek坚持开源和免费,用户可以自主下载与部署模型,这极大地降低了技术壁垒,促进了AI技术的普及和应用。DeepSeek-V3不仅开源了原生FP8权重,还提供了BF16转换脚本,方便社区适配和应用。SGLang、LMDeploy、TensorRT-LLM等工具已支持V3模型推理,进一步降低了用户的使用门槛。
7.社区支持:开源模式吸引了全球开发者社区的支持,进一步推动了模型的优化和应用开发。

六、DeepSeek最适合哪些应用场景
1.科研与技术开发

1)数学推理:DeepSeek在数学推理任务中表现优异,尤其是在处理复杂数学问题(如MATH-500)时,表现甚至超过了一些领先的闭源模型。
2)代码生成与优化:DeepSeek在代码生成和优化方面表现出色,支持多种编程语言,能够自动生成高效代码,并快速检测潜在的bug和优化点。
3)自然语言推理:DeepSeek在自然语言理解、自动推理和语义分析等任务中表现突出,为自然语言处理领域提供了强大的技术支持。

2.企业智能化升级

1)智能客服:企业可以通过DeepSeek的API服务,将模型集成到智能客服系统中,实现自动化的客户问题解答和问题处理。
2)自动化决策:DeepSeek能够处理复杂的逻辑推理任务,适用于企业的数据分析和智能决策支持系统,为企业的市场预测和策略制定提供有力支持。

3.数据分析与智能决策

1)数据分析:DeepSeek在处理复杂逻辑推理任务方面表现出色,适用于数据分析和智能决策支持场景。
2)市场预测:DeepSeek的推理能力可以为企业的数据分析、市场预测和策略制定提供有力支持。

4.教育与培训

1)教育工具:DeepSeek可作为教育工具,帮助学生掌握复杂的推理方法,促进学习者在数学和编程等学科的深度理解。
2)思维过程展示:DeepSeek的长推理链和详细的思维过程展示,能为教育场景提供更直观的教学支持。

七、DeepSeek本地部署实验

Windows环境下基于ollama框架进行deepseek,具体步骤如下

1.下载ollama和CherryStudio

下载ollama,地址为:https://ollama.com/,下载cherrystudio,地址为:http://cherry-studio.com/

2.安装ollama

默认安装即可。

3.下载并运行模型

命令:ollama run deepseek-r1:7b,首次没有找到模型会自动取官网下载对应的模型。下载地址默认为c盘。如果需要修改其他路径,请在环境变量中配置OLLAMA_MODELS为模型存放路径即可。
在命令行窗口中输入问题,即可实现交互式智能问答。

4.查看已下载模型

命令行:ollama list
删除模型命令:ollama rm deepseek-r1:1.5b
查看ollama版本:ollama -v

5.安装并运行cherrystudio

默认安装cherrystudio即可,选择本地模型,ollama api中选用已下载好的模型,即可进行对话。
普通对话测试情况如下

Linux环境下的ollama框架部署和DeepSeek模型加载详见后续文章。

八、相关问题解答
1.DeepSeek-V3不是蒸馏模型

DeepSeek V3是在上一代模型DeepSeek V2基础上形成的,V2使用了8.1万亿个token数据训练,V3模型的预训练数据扩展到了14.8万亿。V3总共使用了约280万GPU小时(包括266.4万小时预训练、11.9万小时上下文长度训练和0.5万小时后训练),完成了约39.7亿亿次浮点运算。这个计算量与训练14.8万亿token的数据集的理论需求相符。也就是说,按照DeepSeek的DeepSeekMoE+DeepSeekMLA架构、用FP8的低精度训练和传输数据、一次预测多个token,DeepSeek的确可以做到不到600万美元的成本。
同时,DeepSeek V3使用了从DeepSeek-R1系列模型中提取的推理能力——R1作为教师模型生成了80万训练样本进行训练。【也就是说,从DeepSeek R1系列模型中提取推理CoT(思维链),并将其纳入标准LLMs(大语言模型),特别是DeepSeek-V3。我们的流水线将R1的验证和反思模式优雅地整合到了DeepSeek-V3中,显着提高了其推理性能】;另外,除了将从R1系列模型中提取的80万思维链样本用以训练V3,DeepSeek还进一步探索了将这些数据应用于阿里巴巴旗下的Qwen2.5系列模型后的效果(如Qwen系列模型DeepSeek-R1-Distill-Qwen-7B和 DeepSeek-R1-Distill-Qwen-32B的推理效果明显优于之前的版本,并与o1-mini相当。这就证明了较大模型的推理模式可以被提取到较小的模型中,这为大模型的后训练优化提供了一个有希望的新方向

2.DeepSeek-R1进步在哪里?(相较于V3)

V3和R1系列模型都是基于V3模型的更基础版本V3-Base开发的。相较于V3(类4o)模型,R1(类o1)系列模型进行了更多自我评估、自我奖励式的强化学习作为后训练。
1)在R1之前,业界大模型普遍依赖于RLHF(基于人类反馈的强化学习),这一强化学习模式使用了大量由人类编写的高质量问答对以了解【什么才是好的答案】,帮助模型在奖励不明确的情况下知道如何作困难的选择。正是这项技术的使用使得GPT-3进化成了更通人性的GPT-3.5,制造了2022年年底ChatGPT上线时的惊喜体验。不过,GPT的不再进步也意味着这一模式已经到达瓶颈。
2)R1系列模型放弃了RLHF中的HF(human feedback,人类反馈)部分,只留下纯粹的RL(强化学习)。在其首代版本R1-Zero中,DeepSeek相当激进地启动了如下强化学习过程:为模型设置两个奖励函数,一个是用于奖励「结果正确」的答案(使用外部工具验证答案的最终正确性),另一个是奖励「思考过程正确」的答案(通过一个小型验证模型评估推理步骤的逻辑连贯性);鼓励模型一次尝试几个不同的答案,然后根据两个奖励函数对它们进行评分。随着训练时间增加,R1-Zero能不断「自我进化」,开始出现诸如「反思」这样的复杂行为,并探索解决问题的替代方法,但这些行为都未曾被明确编程。
3)由于纯强化学习训练中模型过度聚焦答案正确性,忽视了语言流畅性等基础能力,导致生成文本中英混杂。为此DeepSeek又新增了冷启动阶段——用数千条链式思考(CoT)数据先微调V3-Base模型,这些数据包含规范的语言表达和多步推理示例,使模型初步掌握逻辑连贯的生成能力;再启动强化学习流程,生成了大约60万个推理相关的样本和大约20万个与推理无关的样本,将这80万个样本数据再次用于微调V3-Base后,就得到了DeepSeek R1,DeepSeek还用这80万个以思维链为主的数据微调了阿里巴巴的Qwen系列开源模型,结果表明其推理能力也得到了提升。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

一望无际的大草原

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值