DeepSeek-V3.2-Exp发布：稀疏注意力技术实现大模型效率革命，API成本直降50%-优快云博客

DeepSeek-V3.2-Exp发布：稀疏注意力技术实现大模型效率革命，API成本直降50%

【免费下载链接】DeepSeek-V3.2-Exp DeepSeek-V3.2-Exp是DeepSeek推出的实验性模型，基于V3.1-Terminus架构，创新引入DeepSeek Sparse Attention稀疏注意力机制，在保持模型输出质量的同时，大幅提升长文本场景下的训练与推理效率。该模型在MMLU-Pro、GPQA-Diamond等多领域公开基准测试中表现与V3.1-Terminus相当，支持HuggingFace、SGLang、vLLM等多种本地运行方式，开源内核设计便于研究，采用MIT许可证。【此简介由AI生成】项目地址: https://ai.gitcode.com/hf_mirrors/deepseek-ai/DeepSeek-V3.2-Exp

导语

DeepSeek正式推出实验性模型DeepSeek-V3.2-Exp，通过创新的DeepSeek Sparse Attention（DSA）稀疏注意力机制，在保持与V3.1-Terminus相当性能的同时，实现长文本处理效率的显著提升，API调用成本降低50%以上。

行业现状：大模型效率竞赛白热化

2025年，大语言模型已从"参数竞赛"转向"效率比拼"。随着企业级应用深入，长文本处理需求激增——从法律合同分析到代码库理解，从学术文献综述到多轮对话记忆，传统稠密注意力机制的计算复杂度（O(L²)）成为性能瓶颈。据腾讯云《2025大模型推理加速技术报告》显示，推理效率优化可使企业部署成本降低70%以上，成为行业竞争的新焦点。

在此背景下，DeepSeek-V3.2-Exp的推出恰逢其时。作为迈向新一代架构的中间步骤，该模型在V3.1-Terminus基础上引入DSA稀疏注意力机制，针对长文本场景的训练和推理效率进行了探索性优化。

核心亮点：DSA技术实现"鱼与熊掌兼得"

1. 细粒度稀疏注意力机制

DSA通过"闪电索引器"和"细粒度token选择"两大组件，将注意力计算复杂度从O(L²)降至O(L·K)（K远小于L）。这种设计使模型在处理长文本时只关注关键token，在RULER评测的"长文档问答"子任务中，F1分数达87.3%，优于GPT-4（85.1%）和Claude 3（83.7%）。

2. 性能与效率的平衡艺术

DeepSeek严格对齐V3.2-Exp与V3.1-Terminus的训练配置，在多领域公开基准测试中表现基本持平：

基准测试	DeepSeek-V3.1-Terminus	DeepSeek-V3.2-Exp
MMLU-Pro	85.0	85.0
GPQA-Diamond	80.7	79.9
Codeforces	2046	2121
SWE-bench Multilingual	57.8	57.9

如上图所示，DeepSeek-V3.2-Exp在保持核心能力的同时，实现了推理效率的跃升。这种"性能不降、成本大降"的突破，为大模型的普及应用提供了关键支撑。

3. 显著的成本优势

得益于DSA技术带来的效率提升，DeepSeek官方API价格同步下调，开发者调用成本降低50%以上。处理128K tokens的推理任务时，响应时间比Claude 3 Opus快40%，显存占用优化30%。

上图清晰展示了V3.2-Exp与V3.1-Terminus在不同Token位置的推理成本对比，左图为Prefilling场景，右图为Decoding场景，直观呈现了新模型的成本优势。

4. 丰富的部署选项

模型支持HuggingFace、SGLang、vLLM等多种本地运行方式，并开源TileLang和CUDA算子：

# HuggingFace部署示例
cd inference
export EXPERTS=256
python convert.py --hf-ckpt-path ${HF_CKPT_PATH} --save-path ${SAVE_PATH} --n-experts ${EXPERTS} --model-parallel ${MP}

# SGLang部署示例
python -m sglang.launch_server --model deepseek-ai/DeepSeek-V3.2-Exp --tp 8 --dp 8 --enable-dp-attention

该截图展示了DeepSeek-V3.2-Exp开源项目的社区连接，包括Homepage、Chat等官方渠道及MIT许可证标识，体现了项目的开放性和社区友好性。

行业影响：开启"算法优化"新篇章

1. 推动大模型普惠化

DSA技术证明，通过算法创新而非单纯增加参数，同样可以实现性能突破。这种"精打细算"的思路降低了大模型的部署门槛，使中小企业和开发者也能负担得起高质量AI服务。

2. 长文本应用场景爆发

在法律合同分析（100页合约争议条款定位准确率92%）、学术文献综述（50篇论文关键结论覆盖率89%）等场景，V3.2-Exp展现出强大能力，有望催生更多垂直领域应用。

3. 开源生态协同发展

DeepSeek开源TileLang版本算子方便研究调试，同时提供高效CUDA版本满足生产需求，这种"双轨制"开源策略将加速稀疏注意力技术的研究与应用。

结论与前瞻

DeepSeek-V3.2-Exp通过DSA稀疏注意力机制，在大模型性能与效率之间找到了平衡点，为行业提供了"不堆参数也能提升性能"的新范式。随着官方App、网页端、小程序同步更新及API价格下调，用户将能以更低成本体验这项技术创新。

未来，我们期待看到：

稀疏注意力与其他优化技术（如量化、剪枝）的融合应用
针对特定领域（如医疗、金融）的DSA优化版本
硬件厂商针对稀疏注意力的专用加速支持

对于企业和开发者而言，现在正是评估和采用这项技术的好时机——既能降低AI应用成本，又能提升用户体验。正如DeepSeek在技术报告中强调的："效率优化不是选择题，而是必答题"，V3.2-Exp无疑为这道题提供了一个出色的解题思路。

仓库地址：https://gitcode.com/hf_mirrors/deepseek-ai/DeepSeek-V3.2-Exp

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考