国产大模型 DeepSeek-V3

最新推荐文章于 2025-03-29 09:53:26 发布

原创

最新推荐文章于 2025-03-29 09:53:26 发布 · 2.4k 阅读

5 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能

2024年12月DeepSeek发布了全新的模型DeepSeek-V3，并且已经上线和开源。DeepSeek-V3是一款强大的混合专家模型（MoE），总参数量为6710亿，其中每个token激活37亿参数。DeepSeek-V3在多项指标上超越了Qwen2.5-72B 和 Llama-3.1-405B 等开源模型，并且性能比肩 GPT-4o 和 Claude-3.5-Sonnet等模型。

1. 架构

DeepSeek-V3 的基本架构仍然基于 Transformer 框架，采用了多头潜在注意力（MLA ）和 DeepSeekMoE 架构。MLA 通过低秩联合压缩注意力键和值，减少了推理过程中的键值缓存，从而提高了推理效率。DeepSeekMoE 则通过细粒度的专家和共享专家的隔离，实现了经济高效的训练。在 DeepSeek-V2 高效架构的基础上，DeepSeek-V3 还引入了无辅助损失的负载平衡策略，并通过动态调整专家偏置项，确保训练过程中的负载平衡，从而避免了传统辅助损失对模型性能的负面影响。 DeepSeek-V3 研究了一种多标记预测（MTP）目标，并证明其对模型性能有益。该目标还可以用于推测解码，从而加速推理过程。

2. 预训练

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

AI_Mind

关注关注

20
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

DeepSeek-V3 技术报告

mingo_敏

12-31

3684

本文介绍了 DeepSeek-V3，一个强大的混合专家（MoE）语言模型，总参数量为 6710 亿，每个 token 激活的参数量为 370 亿。为了实现高效的推理和经济高效的训练，DeepSeek-V3 采用了多头潜在注意力（MLA）和 DeepSeekMoE 架构，这些架构在 DeepSeek-V2 中得到了充分验证。此外，DeepSeek-V3 率先采用了无辅助损失的负载均衡策略，并设定了多 token 预测训练目标，以提升性能。

【全网独家】DeepSeek 数据导入

走向CTO的路上...

02-11

1733

DeepSeek 提供了灵活的数据导入方式，支持多种数据格式和来源。通过结合先进的 NLP 模型和高效的数据处理流程，DeepSeek 能够快速适应不同的应用场景，并提供高性能的文本处理能力。

参与评论您还未登录，请先登录后发表或查看评论

把大模型的门槛打下来，DeepSeek-V3论文学习

Together_CZ的博客

12-30

3090

把大模型的门槛打下来，DeepSeek-V3论文学习

一文搞懂DeepSeek - 基础模型（V3）和深度思考（R1）

2401_85373691的博客

02-21

3083

DeepSeek提供了提供了基础模型（V3）和深度思考（R1）两种不同模式，以满足用户在不同场景下的需求。基础模型（V3）是通用模型，适用于绝大多数“规范性”任务，如用于快速获取百科信息；而深度思考（R1）是推理模型，擅长解决复杂推理和深度分析等“开放性”任务，如数理逻辑推理和辅助编程。V3还是R1？过程驱动（规范约束）还是结果驱动（模糊目标）。基础模型DeepSeek-V3最大亮点是什么？DeepSeek-V3的训练成本远低于其它大模型。

深度剖析：DeepSeek V3 与 R1 版本的全面对比

ghs_gss的博客

02-13

3026

本文对 DeepSeek 的 V3 和 R1 版本进行了深度剖析与全面对比。首先介绍了自然语言处理领域中 DeepSeek 不同版本的重要性，然后分别从模型架构、性能表现、训练数据、应用场景、优势和局限性等方面详细阐述了 V3 和 R1 版本的特点。V3 版本具有先进的架构和出色的性能，能处理复杂任务，但计算资源需求大；R1 版本架构相对简洁，计算效率高，适用于特定场景。最后总结指出，用户应根据具体需求和条件选择合适的版本。文中还以表格形式清晰对比了两个版本在多个维度的差异。

国产大模型 DeepSeek-V3 开源：6710 亿参数自研 MoE，性能和 GPT-4o 不分伯仲，怎么使用

百态老人的博客

12-29

4549

DeepSeek-V3 模型通过其先进的 MoE 架构和优化策略，在多语言编程、自然语言处理、代码生成等多个领域表现出色。

国产模型能否挑战 GPT-4？一文拆解 DeepSeek-V3 架构与实战应用

努力分享一些人工智能、计算机视觉、影像等相关的知识干货！

03-23

1857

DeepSeek-V3 是当前开源领域最接近 GPT-4 的中文大模型，采用稀疏激活的 MoE 架构，实现了“性能强大、成本可控”的理想平衡。它支持 128K 超长上下文、具备出色的中文理解与生成能力，并全面开源可商用，适合私有部署与行业落地。本文将系统解析 DeepSeek-V3 的架构原理、训练策略、部署方法与应用实战，涵盖从 ChatGPT 式助手到企业知识问答系统的完整路径，帮助你用好这个真正能“落地”的强大国产大模型。

【深度解析】图解Deepseek-V3模型架构-混合专家模型（MoE）

u011376987的博客

02-16

9374

混合专家（Mixture of Experts，简称 MoE）模型，是一种利用多个不同的子模型（或“专家”）来提升大语言模型（LLM）质量的技术。模型中的每个专家都是一个独立的神经网络，专门处理输入数据的特定子集或特定任务。例如，在自然语言处理任务中，一个专家可能专注于处理与语言语法相关的内容，而另一个专家可能专注于语义理解。门控网络的作用是决定每个输入样本应该由哪个专家或哪些专家来处理。它根据输入样本的特征计算出每个专家的权重或重要性，然后根据这些权重将输入样本分配给相应的专家。

DeepSeek-V3 模型实测与部署落地指南（MoE 架构 × 多模态 × 高性能）

最新发布

努力分享一些人工智能、计算机视觉、影像等相关的知识干货！

03-29

1893

为了更具实战指导性，本章整理了三个真实应用场景下DeepSeek-V3 的部署实践，包括任务目标、模型选择、部署结构、最终效果和实际遇到的问题。🧪推理速度（QPS高、延迟低）⚙️大模型结构演进🧠实际部署效果（企业/教育/工具类项目）那么，DeepSeek-V3 是当前最值得深入使用和研究的国产大模型之一。

DeepSeek-V3-Base 模型技术解析

zhangjiaofa的专栏

12-31

2732

DeepSeek-V3-Base 是一个基于 Transformer 架构的预训练语言模型，旨在通过大规模数据训练，捕捉语言的深层次语义信息。该模型在多个 NLP 任务上表现出色，如文本分类、命名实体识别、机器翻译等。大规模预训练：使用了超过 1000 亿个 tokens 的语料进行预训练，涵盖了多种语言和领域。多任务学习：在预训练过程中引入了多任务学习机制，使得模型能够更好地泛化到不同的任务。高效的训练策略：采用了混合精度训练和分布式训练等技术，显著提高了训练效率。

DeepSeek-V3 与 DeepSeek-V3-Base：两大模型对比解析

12-27

1万+

近年来，随着人工智能技术的飞速发展，大型语言模型（LLM）在自然语言处理、代码生成、数学推理等领域的应用越来越广泛。：在 MMLU、DROP、LiveCodeBench 等基准测试中表现优异，尤其在数学推理和代码生成任务中超越了许多开源和闭源模型。：开源 FP8 权重，支持 SGLang、LMDeploy、TensorRT-LLM 等工具，用户可在不同硬件平台上高效运行。：主要针对编程任务，尤其是在多语言编程测评中表现突出，适合开发者用于代码生成和优化。

DeepSeek V3-DeepSeek开源的最新版 AI 模型，编程能力超越Claude

AI先锋的博客

12-26

5774

DeepSeek-V3 与 DeepSeek R1 对比分析：技术与应用的全面解析

热门推荐

进一步有进一步的欢喜~

01-31

2万+

通过对 DeepSeek-V3 和 DeepSeek R1 的全面对比分析，希望读者能清晰把握两款模型的特点、优势和适用场景，在实际应用中根据需求做出科学合理的选择，推动人工智能技术在各个领域的有效应用和创新发展。

Deepseek v3开源，本地仅700G可轻松运行！

star_nwe的博客

12-28

1万+

根据多个基准测试，DeepSeek v3 在代码方面甚至优于 Claude Sonnet 3.5那么671B的DeepSeek V3如何本地运行尼，由于DeepSeek的框架原生采用 FP8 训练，因此仅提供 FP8 权重，预估仅700GB+显存便可轻松运行。当然也可以转换到BF16，在半精度下，需1400GB+量化到int4时需要300GB+半精度 236B的DeepSeek V2，占用 490G 显存，需要 7张 80G A100。

Qwen2.5系列——大模型测评常用benchmark对应原始论文介绍（一）——通用任务

m0_60388871的博客

11-26

2754

数据构建覆盖“Goldilocks Zone”，即生成的文本对人类来说荒谬但模型难以辨别。：使用生成器（如GPT）和过滤器（如BERT）生成难以区分的错误选项。：文本更长（平均41 tokens），增加推理的复杂性。：涉及视频动作描述、任务步骤解析等多种情景。

Deepseek相关资料超能版

weixin_55208985的博客

02-28

967

deepseek-R1超能版

一文读懂AI大模型：从入门到精通的全景解析

优快云_430422的博客

09-23

1927

目前大部分的模型架构都是decode-only（casual LM），少量的有encode-decode，encode-only，为啥大部分LLM是decode-only的，原因可能是以下几点：从mask的角度看，decode-only的输入是一个对角矩阵，对角矩阵是满秩矩阵，表达能力更强。在计算softmax时，假如x=[1,3,2,4],分成2块，第一块[1,3]，取最大值3，[-2, 0],第二块[2,4]，最大值为4，[-2, 0]，聚合最大值[3,4]，为4，[-3，-1，-2， 0]。

DeepSeek-V3 技术细节详细介绍；Deepseek-v3技术报告学，最强开源大模型DeepSeek-V3的技术亮点和创新性详细介绍；LLMs

L_goodboy的博客

02-11

1461

DeepSeek-V3 技术细节详细介绍;DeepSeek-V3 技术细节详细介绍；Deepseek-v3技术报告学，最强开源大模型DeepSeek-V3的技术亮点和创新性详细介绍；LLMs;DeepSeek-V3 技术细节详细介绍；Deepseek-v3技术报告学，最强开源大模型DeepSeek-V3的技术亮点和创新性详细介绍；LLMs

DeepSeek-V3技术报告解读！

2301_81940605的博客

01-10

4768

DeepSeek-V3 是一款性能卓越的混合专家（MoE）语言模型，整体参数规模达到 671B，其中每个 token 激活的参数量为 37B。