DeepSeek-V3：新一代AI模型的突破与开源

最新推荐文章于 2025-12-17 17:41:55 发布

原创最新推荐文章于 2025-12-17 17:41:55 发布 · 2k 阅读

7 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #DeepSeek-V3

Github开源项目专栏收录该内容

32 篇文章

订阅专栏

DeepSeek-V3：新一代AI模型的突破与开源

引言

在人工智能领域，模型的迭代更新总是令人充满期待。今天，我们迎来了DeepSeek系列的最新成员——DeepSeek-V3。这不仅是一个技术突破，更是开源社区的一大盛事。本文将带你深入了解DeepSeek-V3的特性、性能以及它为AI领域带来的新机遇。

DeepSeek-V3的发布

DeepSeek-V3是DeepSeek系列的最新模型，它在今天正式发布并同步开源。用户现在可以登录官网chat.deepseek.com与最新版V3模型进行对话，体验其卓越的性能。值得注意的是，API服务已经同步更新，且接口配置无需改动，但当前版本的DeepSeek-V3暂不支持多模态输入输出。
在这里插入图片描述

性能对齐海外领军闭源模型

DeepSeek-V3是一款自研的MoE模型，拥有671B参数和37B激活，在14.8T token上进行了预训练。根据官方发布的论文，DeepSeek-V3在多项评测中超越了Qwen2.5-72B和Llama-3.1-405B等其他开源模型，并在性能上与世界顶尖的闭源模型GPT-4o以及Claude-3.5-Sonnet不分伯仲。

百科知识与长文本处理

在知识类任务上，DeepSeek-V3的表现相比前代DeepSeek-V2.5有了显著提升，接近当前表现最好的模型Claude-3.5-Sonnet-1022。在长文本测评中，DeepSeek-V3在DROP、FRAMES和LongBench v2上的平均表现超越了其他模型。

代码与数学能力

DeepSeek-V3在算法类代码场景（Codeforces）中远远领先于市面上已有的全部非o1类模型，并在工程类代码场景（SWE-Bench Verified）逼近Claude-3.5-Sonnet-1022。在数学领域，DeepSeek-V3在美国数学竞赛（AIME 2024, MATH）和全国高中数学联赛（CNMO 2024）上大幅超过了所有开源闭源模型。

中文能力

DeepSeek-V3在教育类测评C-Eval和代词消歧等评测集上与Qwen2.5-72B表现相近，但在事实知识C-SimpleQA上更为领先。

生成速度提升至3倍

DeepSeek-V3通过算法和工程上的创新，将生成吐字速度从20 TPS大幅提高至60 TPS，实现了3倍的提升，为用户提供了更加迅速流畅的使用体验。

API服务价格调整

为庆祝新模型的发布，DeepSeek-V3的API服务价格在45天的优惠价格体验期内为每百万输入tokens 0.1元（缓存命中）/1元（缓存未命中），每百万输出tokens 2元。
在这里插入图片描述

开源权重和本地部署

DeepSeek-V3采用FP8训练，并开源了原生FP8权重。得益于开源社区的支持，SGLang和LMDeploy第一时间支持了V3模型的原生FP8推理，同时TensorRT-LLM和MindIE实现了BF16推理。此外，为了方便社区适配和拓展应用场景，提供了从FP8到BF16的转换脚本。
模型权重下载和更多本地部署信息请参考： https://huggingface.co/deepseek-ai/DeepSeek-V3-Base