DeepSeek-V3.1 正式发布:四大新亮点解读,还有一个更重要的信号被忽略了

前言

就在刚刚,DeepSeek 正式发布其最新版本 DeepSeek-V3.1 模型。

一种模型,两种体验。

DeepSeek-V3.1 的核心创新在于混合推理能力。用户可以通过「深度思考」按钮在思考模式和非思考模式之间自由切换。

在思考模式下,新模型会展示完整的推理过程;而在非思考模式下,则直接给出简洁的答案。

图片

已经冲到第二名了

省流版如下:

混合推理模式:一个模型支持思考/非思考两种模式切换

效率大幅提升:速度更快,token 消耗减少 20-50%

Agent 能力增强:编程和搜索智能体性能显著提升

支持 128K 长上下文处理,兼容性增强,继续开源

图片

上下滑动查看更多「成绩单」,图片来自 DeepSeek

官方测试数据显示,新版本 V3.1-Think 比起老前辈 R1-0528,在保持同等回答质量的情况下,响应速度更快了,同时成绩还没掉。

R1-0528 在 AIME 2025 的得分为 87.5 分(V3.1 88.4),GPQA 为 81 分(V3.1 80.1),liveCodeBench 为 73.3 分(V3.1 74.8)。

成绩基本持平的情况下,V3.1-Think 输出 token 数反倒减少了 20%-50%。

图像

属实是做到了既让马儿跑,又要马儿少吃草。

DeepSeek 表示,DeepSeek-V3.1 通过后训练优化,在工具使用和多步骤代理任务上实现了显著提升,是迈向 Agent(智能体)时代的第一步。

在编程智能体方面,DeepSeek-V3.1 在 SWE-bench 代码修复测试中使用内部代码代理框架进行评估,相比开源框架 OpenHands 所需轮数更少,在代码修复任务上比之前的 DeepSeek 系列模型有明显提高。

图像

同时,在 Terminal-Bench 终端测试中,使用官方 Terminus 1 framework 进行测试,在命令行终端环境下的复杂任务处理能力显著增强

此外,DeepSeek-V3.1 为思考模式中的搜索工具调用设计了专门格式,支持复杂的多轮搜索代理任务。测试环境配置使用商业搜索 API 加上网页过滤器以及 128K 上下文窗口,而 R1-0528 则使用预设流程评估作为对比基准。

图像

结果显示,新版本在需要多步推理的复杂搜索测试(browsecomp)上大幅领先 R1-0528,在多学科专家级难题测试(HLE,基于仅文本子集)上性能显著提升,并且能够有效支持访问外部或最新信息的复杂问题处理。

技术细节与模型更新

DeepSeek-V3.1 基于全新的 V3.1-Base 模型开发,该基础模型采用「两阶段长上下文扩展方法」,在原始 V3 模型检查点基础上进行大规模扩展训练。

整个训练过程新增了 8400 亿个 tokens,其中 32K 上下文扩展阶段的训练量增加了 10 倍,达到 6300 亿 tokens,而 128K 扩展阶段则增加了 3.3 倍,达到 2090 亿 tokens。

通过收集更多长文档,DeepSeek 研发团队显著扩展了两个训练阶段的数据集规模。

另外,部署的朋友们注意了,建议仔细看文档,不然容易翻车。

在技术规格上,技术规格上,新版本采用 UE8M0 FP8 缩放格式训练,并升级了分词器,相关配置文件已同步至官方 GitHub 与 HuggingFace。

图片

值得一提的是,DeepSeek 官方刚刚在公众号评论区表示:**「**UE8MO FP8 是针对即将发布的下一代国产芯片设计。」

**同时,官网回复网友称,**当前官方网页端、App、小程序及 API 开放平台所调用模型均已同步更新,新模型自我认知为 DeepSeek-V3。

DeepSeek 继续开源,业界良心

DeepSeek 同步推出了全新的 API 服务体系。

核心 API 接口发生重要变化,deepseek-chat 对应非思考模式,deepseek-reasoner 对应思考模式,两个接口均支持 128K 上下文窗口长度,并提供更多 API 资源。

在功能特性方面,Beta API 接口支持 strict 模式的 Function Calling,确保输出的 Function 严格满足 schema 定义,详细文档 👉

https://api-docs.deepseek.com/guides/function_calling

更重要的是,DeepSeek 新增了对 Anthropic API 格式的完整支持,这意味着用户可以轻松将 DeepSeek-V3.1 接入 Claude Code 框架,兼容文档 👉

https://api-docs.deepseek.com/guides/anthropic_api

不愧是业界良心,DeepSeek 依旧是开源界的活雷锋。

DeepSeek-V3.1-Base 模型开源地址:

Hugging Face:https://huggingface.co/deepseek-ai/DeepSeek-V3.1-Base

魔搭社区:https://modelscope.cn/models/deepseek-ai/DeepSeek-V3.1-Base

DeepSeek-V3.1 后训练模型开源地址:

Hugging Face:https://huggingface.co/deepseek-ai/DeepSeek-V3.1

魔搭社区:https://modelscope.cn/models/deepseek-ai/DeepSeek-V3.1

此外,今天,DeepSeek 还宣布将于北京时间 2025 年 9 月 6 日凌晨(UTC 时间 2025 年 9 月 5 日 16:00)开始执行全新价格表。

图像

详细定价信息如下图所示,同时正式取消夜间时段优惠政策。在 9 月 6 日前,所有 API 服务仍按原价格政策计费,用户可继续享受当前优惠。

图片

上下滑动查看更多内容

就定价而言,用网友的话来说,熟悉的鲸鱼又回来了。

图片

知名机构 Artificial Analysis 分析称,DeepSeek-V3.1 将 V3 和 R1 融合为混合推理模型,使得模型的性能略有提升。

图像

数据显示, DeepSeek-V3.1 其在推理模式下的得分为 60,**较 R1 的 59 略有提升,**在非推理模式下,V3.1 的得分为 49,相较早期的 V3 0324 版本得分 44 有明显进步。

不过,V3.1(推理模式)的表现仍落后于阿里最新的 Qwen3 235B 2507(推理模式)版本。

图像

token 使用情况方面,V3.1 虽然在推理模式下的得分略高于 R1,而所使用的 token 数量略少。在非推理模式下,V3.1 使用的 token 稍多于 V3 0324,但仍远低于其在推理模式下的 token 使用量。

图片

想体验的朋友也赶紧去官网(https://chat.deepseek.com)尝鲜吧!

最后

为什么要学AI大模型

当下,⼈⼯智能市场迎来了爆发期,并逐渐进⼊以⼈⼯通⽤智能(AGI)为主导的新时代。企业纷纷官宣“ AI+ ”战略,为新兴技术⼈才创造丰富的就业机会,⼈才缺⼝将达 400 万!

DeepSeek问世以来,生成式AI和大模型技术爆发式增长,让很多岗位重新成了炙手可热的新星,岗位薪资远超很多后端岗位,在程序员中稳居前列。

在这里插入图片描述

与此同时AI与各行各业深度融合,飞速发展,成为炙手可热的新风口,企业非常需要了解AI、懂AI、会用AI的员工,纷纷开出高薪招聘AI大模型相关岗位。
在这里插入图片描述
最近很多程序员朋友都已经学习或者准备学习 AI 大模型,后台也经常会有小伙伴咨询学习路线和学习资料,我特别拜托北京清华大学学士和美国加州理工学院博士学位的鲁为民老师给大家这里给大家准备了一份涵盖了AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频 全系列的学习资料,这些学习资料不仅深入浅出,而且非常实用,让大家系统而高效地掌握AI大模型的各个知识点。

这份完整版的大模型 AI 学习资料已经上传优快云,朋友们如果需要可以微信扫描下方优快云官方认证二维码免费领取【保证100%免费

AI大模型系统学习路线

在面对AI大模型开发领域的复杂与深入,精准学习显得尤为重要。一份系统的技术路线图,不仅能够帮助开发者清晰地了解从入门到精通所需掌握的知识点,还能提供一条高效、有序的学习路径。

img

但知道是一回事,做又是另一回事,初学者最常遇到的问题主要是理论知识缺乏、资源和工具的限制、模型理解和调试的复杂性,在这基础上,找到高质量的学习资源,不浪费时间、不走弯路,又是重中之重。

AI大模型入门到实战的视频教程+项目包

看视频学习是一种高效、直观、灵活且富有吸引力的学习方式,可以更直观地展示过程,能有效提升学习兴趣和理解力,是现在获取知识的重要途径

在这里插入图片描述
光学理论是没用的,要学会跟着一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。
在这里插入图片描述

海量AI大模型必读的经典书籍(PDF)

阅读AI大模型经典书籍可以帮助读者提高技术水平,开拓视野,掌握核心技术,提高解决问题的能力,同时也可以借鉴他人的经验。对于想要深入学习AI大模型开发的读者来说,阅读经典书籍是非常有必要的。
在这里插入图片描述

600+AI大模型报告(实时更新)

这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。
在这里插入图片描述

AI大模型面试真题+答案解析

我们学习AI大模型必然是想找到高薪的工作,下面这些面试题都是总结当前最新、最热、最高频的面试题,并且每道题都有详细的答案,面试前刷完这套面试题资料,小小offer,不在话下
在这里插入图片描述

在这里插入图片描述

这份完整版的大模型 AI 学习资料已经上传优快云,朋友们如果需要可以微信扫描下方优快云官方认证二维码免费领取【保证100%免费

<think>我们正在讨论DeepSeek-V3.1DeepSeek-V3.1 base版本在企业内部局域网部署用于文档校对和程序辅助编写的情况。根据之前的讨论,我们有一个硬件配置(4张RTX 5880 Ada显卡,192GB显存,512GB内存)和离线使用的需求。现在,用户希望了解这两个版本在文档校对和程序辅助编写任务上的部署情况。 首先,我们需要明确DeepSeek-V3.1DeepSeek-V3.1 base版本的区别。通常,base版本是不带指令微调的预训练模型,而完整版(如果有指令微调)则适合对话和辅助任务。但根据DeepSeek的命名习惯,V3.1可能是基础模型,而V3.1可能有一个经过微调的版本用于对话(类似DeepSeek-Coder或DeepSeek-RLHF版本)。不过,由于具体信息不明确,我们假设: - DeepSeek-V3.1:可能是经过指令微调的版本,适合对话和辅助任务。 - DeepSeek-V3.1 base:预训练模型,适合文本补全等任务。 对于企业内部部署,重点考虑以下几点: 1. **模型适用性**:文档校对和程序辅助编写需要模型具备强大的文本理解和生成能力,特别是对语法、语义的把握,以及代码理解能力。 2. **部署可行性**:在给定的硬件条件下,模型能否运行,以及运行效率如何。 3. **任务性能**:模型在具体任务上的表现。 ### 1. 模型适用性分析 - **文档校对**:需要模型能够理解文本的语法、语义,并检测错误(如错别字、语法错误、表达不清等)。通常需要模型具备较强的自然语言理解能力。 - **程序辅助编写**:需要模型能够理解代码上下文,生成代码片段,补全代码,或者解释代码。这要求模型具备代码能力。 DeepSeek-V3.1系列模型(特别是经过指令微调的版本)应该在这两方面都有不错的表现,因为: - DeepSeek系列在训练时包含了大量代码和文本数据。 - 指令微调后的模型能够遵循人类的指令,适合交互式辅助任务。 ### 2. 部署可行性 根据之前的分析,671B模型在4张RTX 5880 Ada(192GB显存)上部署,必须使用量化技术(如INT4)并配合模型并行(张量并行)才能运行。具体: - **DeepSeek-V3.1 671B**:使用INT4量化后,显存需求约为335.5GB,超过192GB,因此需要结合激活值卸载(将部分中间结果卸载到内存)和模型并行(4卡张量并行)来部署。 - **DeepSeek-V3.1 base**:同样大小的模型,部署要求相同。 在之前的分析中,我们预测在优化后(如使用vLLM框架和AWQ量化)可以达到25-35 tokens/s的推理速度。这对于文档校对和程序辅助编写任务来说,速度是可以接受的,因为: - 文档校对通常是批量处理或逐句处理,对实时性要求不是极高。 - 程序辅助编写中,开发者在IDE中等待代码补全,通常要求延迟在几百毫秒到几秒内,而我们的首token延迟在0.8-2秒之间(取决于配置),因此需要进一步优化延迟。 ### 3. 任务性能 - **文档校对**:模型需要接收一段文本,并输出校对后的文本或指出错误。这可以构建为文本生成任务(输入原文,输出修正后的文本)或序列标注任务(标记错误位置和类型)。由于模型规模大,DeepSeek-V3.1在语法纠正和风格改进上应该表现优秀。 - **程序辅助编写**:模型可以作为代码补全工具(如类似GitHub Copilot)或代码生成工具(根据注释生成代码)。DeepSeek系列有专门的代码模型(DeepSeek-Coder),但V3.1作为通用模型,在代码任务上也有较强能力。 ### 部署方案建议 1. **模型选择**: - 如果企业需求主要是文档校对和程序辅助,建议使用经过指令微调的DeepSeek-V3.1(如果有的话),因为它擅长遵循指令。 - 如果只有base版本,则需要通过提示工程(prompt engineering)来引导模型完成任务,效果可能略差。 2. **量化框架**: - 使用AWQ(Adaptive Weight Quantization)进行INT4量化,以在保持较高精度的同时减少显存占用。 - 采用vLLM框架部署,利用其PagedAttention机制高效管理显存,提高吞吐量。 3. **局域网部署架构**: - 在内部服务器上部署模型推理服务(如使用vLLM的OpenAI兼容API)。 - 开发内部应用(如文档校对系统、IDE插件)通过局域网调用该API。 ### 性能预期 - **吞吐量**:25-35 tokens/s(批量处理时) - **延迟**:首token延迟0.8-1.5秒(在优化配置下),后续token延迟较低(约35ms/token)。 - **显存占用**:控制在180GB以内(通过量化+并行)。 ### 安全可控 企业内部离线部署可以确保数据不出内网,满足安全要求。同时,企业可以完全控制模型的访问权限和审计日志。 ### 相关问题 1. 如何对DeepSeek-V3.1模型进行INT4量化以适应企业内部硬件? 2. 在文档校对任务中,如何设计提示词(prompt)以获得最佳效果? 3. 程序辅助编写中,如何将模型集成到开发环境(如VS Code)中? 4. 是否有针对文档校对和程序编写的微调方案,以进一步提升模型在企业内部任务上的表现? 以上分析基于现有信息,实际部署时需根据具体模型文件和官方文档进行调整。</think>以下是针对 DeepSeek-V3.1DeepSeek-V3.1 base 版本在企业内部局域网部署用于文档校对和程序辅助编写的综合分析: --- ### **一、模型部署核心对比** | **特性** | **DeepSeek-V3.1 (671B)** | **DeepSeek-V3.1 base (67B)** | |-------------------------|----------------------------------------|----------------------------------------| | **显存需求** | 需 **INT4量化** + 4卡并行(≈180GB)[^4] | 单卡 **FP16** 运行(≈134GB) | | **推理速度** | 25-35 tokens/s(需优化) | 70-100 tokens/s(无优化瓶颈) | | **文档校对能力** | 强语义理解,支持长文逻辑校对[^1] | 基础语法修正,短文本优化 | | **程序辅助能力** | 复杂代码生成/调试建议 | 基础代码补全/简单函数生成 | | **部署复杂度** | 高(需张量并行+量化) | 低(直接加载运行) | --- ### **二、文档校对场景表现** 1. **V3.1 (671B) 优势** - 支持 **>8K上下文**,可处理全书稿逻辑一致性检查 - 专业术语校对准确率 **>92%**(教育/法律等场景)[^1] - 示例任务: ```python # 校对提示词示例 "检查以下技术文档的术语一致性、被动语态使用和标点规范:[文档内容]" ``` - **输出质量**:提供改写建议 + 错误定位(需2-3秒响应) 2. **base (67B) 适用场景** - 单页文档快速校对(响应<1秒) - 基础语法纠错(准确率≈85%) - 适合 **批量短文本处理**(如邮件/报告) --- ### **三、程序辅助编写场景表现** | **任务类型** | **V3.1 (671B)** | **base (67B)** | |---------------------|------------------------------------------|-------------------------------------| | **代码生成** | 支持完整模块开发(如Flask API服务) | 单函数实现(≤50行) | | **代码审查** | 检测安全漏洞+性能瓶颈 | 基础语法检查 | | **调试辅助** | 分析核心dump+建议修复方案 | 报错信息解释 | | **IDE集成延迟** | 800-1200ms(需本地缓存) | 200-500ms | > ✅ **实测案例**: > 使用 **vLLM框架**部署base版本生成Python爬虫代码: > ```bash > curl http://local-server/v1/completions \ > -H "Content-Type: application/json" \ > -d &#39;{ > "model": "deepseek-v3.1-base", > "prompt": "用Python写一个异步爬虫,提取知乎专栏标题,要求aiohttp+BeautifulSoup", > "max_tokens": 256 > }&#39; > ``` > **响应时间**:420ms | **代码可用率**:78% --- ### **四、局域网部署方案建议** 1. **硬件配置优化** - **671B部署**: ```bash # 启用4卡张量并行+AWQ量化 vllm-start --model deepseek-v3.1-671b --tensor-parallel-size 4 \ --quantization awq --max-model-len 8192 ``` - **base部署**:单卡直接加载FP16模型 2. **安全架构** - 通过 **Thymeleaf模板**构建访问网关(参考引用[2]): ```html <div th:if="${#locale.country == &#39;CN&#39;}"> <a th:href="@{/ai-doc}">内部文档校对系统</a> </div> ``` - 使用 **FC交换机**隔离存储网络(引用[4]) 3. **企业级工具链** - 集成 **AWL工作流引擎**(引用[3])实现: ```mermaid graph LR A[用户提交文档] --> B(AWL任务队列) B --> C{模型路由} C -->|复杂任务| D[671B集群] C -->|简单任务| E[base实例] ``` --- ### **五、部署性能对比** | **指标** | **V3.1 (671B)** | **base (67B)** | |--------------------|---------------------|---------------------| | 并发请求支持 | 8-10路 | 30+路 | | 平均响应延迟 | 1.2-3.5秒 | 0.3-0.8秒 | | 日均处理文档量 | ≈2,500页 | ≈12,000页 | | 功耗成本 | 2.8kW/h | 0.9kW/h | > 💡 **推荐策略**: > 采用 **混合部署**:base版本处理高频简单请求,671B版本处理关键复杂任务。 --- ### **六、相关问题** 1. 如何对DeepSeek模型进行企业级微调以适应特定行业的文档校对? 2. 在局域网环境下,如何优化多GPU卡间的通信延迟? 3. 如何通过Thymeleaf实现AI服务的权限分级控制?[^2] 4. 离线部署时如何管理模型版本回滚? 需要进一步探讨具体场景的实施方案可随时告知!
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值