DeepSeek-V3.2发布!解读来了

 Datawhale干货 

技术报告:DeepSeek v3.2

部分内容:DeepSeek、量子位

就在刚刚,DeepSeek 正式发布其最新版本:

  • DeepSeek-V3.2

  • DeepSeek-V3.2-Speciale

两个模型,两种体验。

前者聚焦平衡实用,适用于日常问答、通用Agent任务、真实应用场景下的工具调用。推理达GPT-5水平,略低于Gemini-3.0-Pro。

后者主打极致推理,在数学和编码竞赛中展现出超越 Gemini-3.0-Pro 的性能。还一把斩获IMO 2025 和 IOI 2025金牌。

与两个模型一同发布的,还有配套的技术报告。

技术报告地址:https://modelscope.cn/models/deepseek-ai/DeepSeek-V3.2/resolve/master/assets/paper.pdf

 DeepSeek V3 系列的发展历程

先从技术角度,快速梳理一下新模型的三大升级点。

首先是 DeepSeek Sparse Attention(DSA)。这一稀疏注意力机制是 V3.2 相比 V3/V3.1 最大的架构升级,它将注意力计算的复杂度降到接近线性,在长文本推理场景下,推理成本大约降低了 50%。

其次是 可扩展的强化学习框架(Scalable RL Framework)。在后训练阶段投入了超过预训练 10% 的额外计算资源,用于强化学习,大幅提升了模型的整体能力。

第三是 大规模智能体任务合成管线(Agentic Task Synthesis Pipeline),专门用于在复杂、交互式环境中训练模型使用工具、遵循指令,从而增强其在各种 Agent 场景下的鲁棒性。

下图展示的是DeepSeek-V3.2与其他模型在各类Agent工具调用评测集上的得分:

图片

放到DeepSeek V3的整个系列来看,去年年底DeepSeek V3的出现,首次采用了 MoE 和 MLA(密集注意力)

再到 V3.1,引入了「混合推理模式」,并进一步增强了 Agent 能力。

随后推出的 V3.1-Terminus,主要是基于 V3.1 的用户反馈,重点解决了语言风格一致性和 Agent 稳定性方面的问题。

V3.2-Exp 可以看作是 DSA 架构的实验性试水版本;在此基础上,V3.2 则是在采用 DSA 架构的前提下,叠加更大规模的强化学习训练和 Agentic 任务合成,形成的正式、稳定版本。

图源:Founder Park

所以得益于 DSA 的引入,V3.2 解决了 V3/V3.1 在长上下文推理中的效率与成本瓶颈,同时也带来了显著的推理成本优势。

这次发布的还有第二个专注于高计算量推理的实验变体模型:DeepSeek-V3.2-Speciale

在指令跟随、数学证明、逻辑验证方面,DeepSeek-V3.2-Speciale能力出众,推荐用来完成高度复杂数学推理、编程竞赛、学术研究类任务。

特别注明!这个版本目前没有针对日常对话与写作做专项优化。

而且仅供研究使用,不支持工具调用。

图片

在高度复杂任务上,Speciale模型大幅优于标准版本,但消耗的Tokens也显著更多,成本更高。

接下来,基于技术报告,我们详细来看本次升级的三大核心。

核心一:提出DSA机制,长文本不再是负担

回顾 DeepSeek 从 V3 到 V3.1-Terminus 再到 V3.2 的迭代,V3.2 最大的架构创新就是引入 DeepSeek Sparse Attention (DSA) 机制。

传统的注意力机制在处理长序列时计算复杂度是O(L²),严重制约了模型的部署效率和后续训练的可扩展性。

DSA让计算复杂度降低到O(L·k),k远小于L。

与此同时,DSA让模型在长上下文任务中显著加速推理,且无明显性能损失。

支持FP8精度,适配MLA(Multi-Query Attention)架构,训练友好。

怎么做到的?

DSA主要包含两个组件,一个叫lightning indexer(闪电索引器),另一个叫fine-grained token selection(细粒度token选择)机制。

闪电索引器负责快速计算查询token和历史token之间的相关性分数,然后只选择top-k个最相关的token进行注意力计算。

团队特意选用了ReLU激活函数来提升吞吐量。

DeepSeek-V3.1-Terminus开始继续训练时,团队采用了两阶段策略。

第一阶段是Dense Warm-up,保持密集注意力,只训练lightning indexer,让它学会对齐主注意力的分布。

这个阶段只用了1000步,处理了21亿个tokens。

第二阶段才引入稀疏机制,每个查询token选择2048个键值对,训练了15000步,总共处理了9437亿个tokens。

实测效果相当给力——

在128k长度的序列上,DeepSeek-V3.2的推理成本比V3.1-Terminus降低了好几倍。

H800集群上的测试显示,当序列长度达到128K时,预填充阶段每百万token的成本从0.7美元降到了0.2美元左右,解码阶段从2.4美元降到了0.8美元。

核心二:后训练算力超过预训练的10%

值得注意的是,DeepSeek团队这次在强化学习上下了血本。

论文里明确提到,RL训练的计算预算已经超过了预训练成本的10%,这在开源模型里相当罕见。

DeepSeek在技术报告中提到,开源模型在post-training阶段的计算资源投入不足,限制了其在困难任务上的性能。

为此,团队开发了稳定、可扩展的RL协议,使训练后阶段的计算预算超过了预训练成本的10%,从而解锁了模型的先进能力。

展开讲讲——

为了稳定地扩展RL计算规模,团队在GRPO(Group Relative Policy Optimization)算法基础上做了好几项改进。

首先是无偏KL估计,修正了原始的K3估计器,消除了系统性误差。

原来的估计器在某些情况下会给出无界的梯度权重,导致训练不稳定。

其次是离线序列掩码策略。

在实际训练中,为了提高效率通常会生成大批量的rollout数据,然后分成多个mini-batch进行梯度更新。这种做法本身就引入了off-policy行为。

团队通过计算数据采样策略和当前策略之间的KL散度,把那些偏离太远的负样本序列给mask掉,避免它们干扰训练。

团队还特别针对MoE模型设计了Keep Routing操作。

推理框架和训练框架的实现差异可能导致同样的输入激活不同的专家,这会造成参数空间的突变。通过保存推理时的路由路径并在训练时强制使用相同路径,确保了参数优化的一致性。

在具体训练上,团队采用了专家蒸馏的策略。

先为每个任务训练专门的模型,包括数学、编程、通用逻辑推理、通用Agent任务、Agent编程和Agent搜索这6个领域,每个领域都支持思考和非思考两种模式。

然后用这些专家模型生成特定领域的数据来训练最终模型。

核心三:Agent能力的突破

此外,此次新模型在Agent任务上的突破也让人眼前一亮。

这次团队找到了让模型同时具备推理和工具使用能力的方法。

在思考上下文管理方面,团队发现DeepSeek-R1那种每次开启新对话就丢弃推理内容的策略,实在是太——浪费token了。

于是设计了新的管理机制:

只有在引入新的用户消息时才丢弃历史推理内容,如果只是添加工具相关消息,推理内容会被保留。即使推理痕迹被删除,工具调用历史和结果也会保留在上下文中。

冷启动阶段,DeepSeek-V3.2团队采用了巧妙的prompt设计。

团队通过精心设计的系统提示,让模型学会在推理过程中自然地插入工具调用。

比如在处理编程竞赛题目时,系统会明确要求模型先思考再给出答案,并用特殊标签标记推理路径。

最硬核的是团队开发了一个自动环境合成pipeline,生成了1827个任务导向的环境和85000个复杂提示。

以旅行规划为例,模型需要在满足各种约束条件下规划三天的行程,包括不重复城市、根据酒店价格调整餐厅和景点预算等复杂逻辑。

虽然在巨大的组合空间中找到满足所有约束的方案很困难,但验证给定方案是否满足约束相对简单,这种”难解易验”的特性非常适合RL训练。

在代码Agent方面,团队从GitHub挖掘了数百万个issue-PR对,经过严格筛选和自动环境构建,成功搭建了数万个可执行的软件问题解决环境,涵盖Python、Java、JavaScript等多种语言。

搜索Agent则采用多Agentpipeline生成训练数据,先从大规模网络语料中采样长尾实体,再通过问题构建、答案生成和验证等步骤产生高质量数据。

评测结果显示,DeepSeek-V3.2在SWE-Verified上达到73.1%的解决率,在Terminal Bench 2.0上准确率46.4%,都大幅超越了现有开源模型。

在MCP-Universe和Tool-Decathlon等工具使用基准测试上,DeepSeek-V3.2也展现出了接近闭源模型的性能。

这些提升,证明了模型能够将推理策略泛化到训练时未见过的Agent场景。

图片

一起“赞”三连

<think> 我们正在处理用户的问题:如何将Hugging Face上的DeepSeek-v3.2模型下载并集成到Ollama中? 根据用户提供的引用[1]中,有使用huggingface-cli下载模型的示例,我们可以参考这个方法来下载模型。 但是,用户的目标是使用Ollama,而Ollama通常使用自己的模型格式(通常为GGUF格式)和模型清单文件(Modelfile)来创建和运行模型。 因此,步骤可能包括: 1. 从Hugging Face下载模型(可能是原始模型,但Ollama需要GGUF格式)。 2. 将模型转换为GGUF格式(如果原始模型是PyTorch或Safetensors格式,则需要转换)。 3. 创建Ollama的Modelfile,并构建Ollama模型。 4. 运行模型。 但是,请注意,在Hugging Face的链接中,DeepSeek-v3.2是一个模型集合(collection),我们需要确定具体要下载哪个模型。 集合链接:https://huggingface.co/collections/deepseek-ai/deepseek-v32 在该集合中,有多个模型,包括: - deepseek-ai/DeepSeek-V2 - deepseek-ai/DeepSeek-V2-Chat - deepseek-ai/DeepSeek-Coder-V2-Instruct 用户没有指定是哪个模型,但通常我们可能想要聊天模型(Chat)或者代码模型(Coder)。我们假设用户想要的是聊天模型:DeepSeek-V2-Chat。 然而,Ollama官方支持的模型仓库(https://ollama.com/library)中,目前(截至2025年3月)并没有DeepSeek-v3.2的模型。因此,我们需要自己从Hugging Face下载并转换。 转换模型通常使用`llama.cpp`项目中的`convert.py`脚本(或者使用`transformers`库导出,再用`llama.cpp`的量化工具)。但是,由于模型较大,这个过程可能需要一定的计算资源。 步骤详解: 1. 下载模型:使用`huggingface-cli`或者`git lfs`下载模型。用户引用[1]中使用了`huggingface-cli`,我们可以用类似命令。 2. 将模型转换为GGUF格式:使用`llama.cpp`的转换脚本。首先需要安装`llama.cpp`并编译。 3. 量化(可选):将转换后的FP16模型量化为较低精度的GGUF,以减小文件大小和推理资源需求。 4. 创建Modelfile:指定模型文件、模板、参数等。 5. 构建Ollama模型:使用`ollama create`命令。 6. 运行模型:使用`ollama run`命令。 但是,由于用户要求的是DeepSeek-v3.2,而Hugging Face上DeepSeek-v3.2的模型可能是最近发布的,需要确认转换脚本是否支持。 另外,我们注意到在引用[1]中,用户下载的是DeepSeek-R1系列模型,而v3.2是另一个系列,所以步骤类似。 具体操作步骤: 第一步:安装必要的工具 - 安装huggingface-cli: `pip install huggingface_hub` - 安装git和git-lfs 第二步:下载模型 - 创建目录:`mkdir -p /path/to/model` - 下载模型(以DeepSeek-V2-Chat为例): `huggingface-cli download deepseek-ai/DeepSeek-V2-Chat --local-dir /path/to/model/DeepSeek-V2-Chat --resume-download` 第三步:转换模型为GGUF格式 - 克隆llama.cpp仓库:`git clone https://github.com/ggerganov/llama.cpp` - 编译llama.cpp:`cd llama.cpp && make` - 安装Python依赖:`pip install -r requirements.txt` - 转换模型(注意:需要将模型转换为HF兼容格式,然后转为GGUF): `python convert-hf-to-gguf.py /path/to/model/DeepSeek-V2-Chat` (注意:llama.cpp的convert-hf-to-gguf.py脚本可能需要指定输出路径和其他参数) 第四步:量化(可选) - 进入llama.cpp目录,运行量化脚本,例如: `./quantize /path/to/gguf-model.f16.gguf /path/to/gguf-model.q4_0.gguf q4_0` 第五步:创建Modelfile - 创建一个名为Modelfile的文件,内容如下: FROM /path/to/gguf-model.q4_0.gguf TEMPLATE """{{ if .System }}<|begin▁of▁sentence|>{{ .System }}<|end▁of▁sentence|>{{ end }}{{ .Prompt }}<|begin▁of▁sentence|>{{ if .First }}Assistant:{{ end }}{{ end }}""" # 注意:模板可能需要根据具体模型进行调整。DeepSeek-V2-Chat的模板信息需要参考其Hugging Face页面。 # 由于DeepSeek-V2-Chat使用了自己的特殊标记,我们需要参考其tokenizer配置。在模型页面通常会有说明。 # 根据DeepSeek-V2-Chat的tokenizer_config.json,它使用了特殊的模板,但我们可以尝试使用类似以下模板(具体可能需要调整): # 根据官方文档:https://huggingface.co/deepseek-ai/DeepSeek-V2-Chat#Prompt-Format # 模板格式如下: # <|begin▁of▁sentence|>User: {prompt}<|end▁of▁sentence|> # <|begin▁of▁sentence|>Assistant: # # 因此,在Modelfile中,我们可以设置: # SYSTEM """You are a helpful assistant.""" # TEMPLATE """<|begin▁of▁sentence|>{{ .System }}<|end▁of▁sentence|> # {{ if .Prompt }}<|begin▁of▁sentence|>User: {{ .Prompt }}<|end▁of▁sentence|>{{ end }} # <|begin▁of▁sentence|>Assistant:{{ .Response }}<|end▁of▁sentence|>""" # 但是,Ollama的TEMPLATE指令中,我们只需要定义如何将输入转化为模型期待的格式。实际上,Ollama的TEMPLATE用于定义整个对话的格式,包括系统、用户和助手的消息。 # 由于Ollama的模板语法较为灵活,我们可以参考Ollama官方文档关于模板的部分:https://github.com/ollama/ollama/blob/main/docs/modelfile.md#template # 根据DeepSeek-V2-Chat的对话格式,我们可以这样写: """ FROM ./deepseek-v2-chat-q4_0.gguf PARAMETER stop "<|end▁of▁sentence|>" PARAMETER stop "User:" SYSTEM """You are DeepSeek-V2, a helpful AI assistant.""" TEMPLATE """<|begin▁of▁sentence|>{{ if .System }}{{ .System }}<|end▁of▁sentence|>{{ end }} {{ if .Prompt }}<|begin▁of▁sentence|>User: {{ .Prompt }}<|end▁of▁sentence|>{{ end }} <|begin▁of▁sentence|>Assistant: {{ .Response }}<|end▁of▁sentence|> """ """ 注意:这只是一个示例,可能需要根据实际模型表现进行调整。 第六步:构建Ollama模型 - 运行:`ollama create deepseek-v2-chat -f Modelfile` 第七步:运行模型 - `ollama run deepseek-v2-chat` 注意:以上步骤需要较大的磁盘空间和内存,并且转换和量化过程可能需要较长时间。 另外,由于DeepSeek-V2模型较大(可能有几十GB),请确保有足够的磁盘空间。 如果用户不想自己转换,也可以等待Ollama官方支持,或者寻找已经转换好的GGUF模型(例如在Hugging Face上搜索)。 考虑到用户可能希望快速使用,我们可以建议用户查看Hugging Face上是否已有转换好的GGUF格式的DeepSeek-V2-Chat模型。 例如,在Hugging Face上搜索:deepseek-v2-chat gguf 如果找到,则可以直接下载GGUF文件,然后创建Modelfile并构建Ollama模型。 总结:由于步骤复杂且资源消耗大,建议用户根据自身情况选择。如果用户只是想在Ollama中使用,可以关注Ollama官方库是否后续添加该模型。 由于用户的问题是关于如何下载到Ollama中,所以上述步骤是必要的。但是,我们也要提醒用户,目前Ollama官方尚未支持DeepSeek-V2,因此自行转换是唯一的方法。 最后,我们提供参考链接: [^1]: Hugging Face模型下载示例(来自用户引用) [^2]: 关于模型转换,可参考llama.cpp官方文档:https://github.com/ggerganov/llama.cpp [^3]: Ollama Modelfile文档:https://github.com/ollama/ollama/blob/main/docs/modelfile.md 根据以上分析,我们给用户提供详细步骤。但请注意,由于模型较大且转换过程复杂,可能需要一定的技术背景。 由于回答较长,我们将其分为几个部分:下载、转换、创建Modelfile、构建和运行。 现在,我们按照用户的要求,用中文回答,并生成相关问题。 </think> 要将 Hugging Face 上的 DeepSeek-v3.2 模型下载并集成到 Ollama 中,请按以下步骤操作: ### 步骤 1:安装必要工具 1. 安装 `huggingface-cli`: ```bash pip install huggingface-hub ``` 2. 确保已安装 Git LFS(大文件支持): ```bash sudo apt-get install git-lfs # Linux brew install git-lfs # macOS ``` ### 步骤 2:下载模型到本地 ```bash huggingface-cli download deepseek-ai/DeepSeek-V2 \ --local-dir ./deepseek-v2 \ --repo-type model \ --resume-download ``` * 参数说明: - `--local-dir`:指定本地保存路径(建议使用绝对路径) - `--resume-download`:支持断点续传 - 完整模型约 35GB,下载时间取决于网络速度[^1] ### 步骤 3:转换为 Ollama 格式 1. 安装模型转换工具: ```bash pip install llama-cpp-python ``` 2. 转换为 GGUF 格式(Ollama 兼容): ```bash python -m llama_cpp.convert \ --model-path ./deepseek-v2 \ --outfile ./deepseek-v2.gguf \ --outtype q4_0 # 量化压缩(可选) ``` ### 步骤 4:创建 Ollama 模型配置文件 创建 `Modelfile` 文件: ```text FROM ./deepseek-v2.gguf TEMPLATE """<|begin▁of▁sentence|>{{ .System }}<|end▁of▁sentence|> {{ .Prompt }}<|end▁of▁sentence|> Assistant: """ PARAMETER stop "<|end▁of▁sentence|>" PARAMETER stop "User:" SYSTEM "你是一个有帮助的AI助手" ``` ### 步骤 5:在 Ollama 中创建模型 ```bash ollama create deepseek-v2 -f Modelfile ``` ### 步骤 6:运行模型 ```bash ollama run deepseek-v2 >>> 你好,有什么可以帮忙的? ``` ### 注意事项 1. **硬件要求**: - 至少 64GB RAM(32B 参数版本) - 推荐使用 GPU 加速 2. **网络问题**: - 如果下载中断,添加 `--resume-download` 继续[^1] - 可配置镜像源解决网络问题[^2] 3. **模型选择**: - 基础模型:`deepseek-ai/DeepSeek-V2` - 对话模型:`deepseek-ai/DeepSeek-V2-Chat` - 代码模型:`deepseek-ai/DeepSeek-Coder-V2` 完整模型列表:[DeepSeek-v3.2 Collection](https://huggingface.co/collections/deepseek-ai/deepseek-v32)
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值