AI技术领域再掀波澜!DeepSeek官方今日正式对外发布新一代大语言模型DeepSeek-V3.1,这一重磅消息在发布后短短一小时内,便在国际社交平台X上创下26万次的浏览热度,引发全球科技社区的高度关注。作为一款采用创新混合架构的智能模型,DeepSeek-V3.1突破性地实现了“思考模式”与“非思考模式”的无缝协同运行机制,用户可根据实际应用场景的需求,灵活调整推理深度,从而在保证任务处理质量的同时显著提升运行效率。依托深度优化的训练策略与大规模长文档扩展技术,该模型在推理速度、工具调用智能化水平、代码生成能力及数学问题求解等核心维度均实现了跨越式提升,标志着AI Agent技术正式进入实用化落地阶段。
【免费下载链接】DeepSeek-V3.1 项目地址: https://ai.gitcode.com/hf_mirrors/deepseek-ai/DeepSeek-V3.1
本次DeepSeek-V3.1的核心革新在于其独创的混合思考模式,通过动态切换对话模板,单一模型即可同时兼容深度思考与快速响应两种工作模式。这种架构设计使得模型既能在复杂推理场景下展现出卓越的问题分析能力,又能在简单任务处理时保持极高的运行效率。更值得关注的是,经过专项后训练优化,模型在工具调用精准度和智能体任务执行方面的表现实现了质的飞跃,特别是在多工具协同工作流中展现出接近人类专家的决策逻辑。官方测试数据显示,DeepSeek-V3.1-Think版本在AIME 2025(美国数学邀请赛2025版)中取得88.4%的得分,在GPQA Diamond(高难度研究生级知识问答数据集的Diamond子集)中获得80.1%的成绩,而在LiveCodeBench(实时编码基准测试)中更是以74.8%的得分刷新行业纪录,全面超越其上一代产品R1-0528的73.3%。尤为关键的是,在取得这些成绩的同时,V3.1-Think版本的输出token数量反而实现了大幅缩减,这种“更少资源消耗、更高任务质量”的特性,使得该模型在计算资源优化方面展现出显著优势,为大规模商业化应用奠定了坚实基础。
在软件工程与智能体任务基准测试中,DeepSeek-V3.1的表现更是令人瞩目。在SWE-Bench Verified代码评测中,模型以66.0%的得分大幅超越V3-0324版本的45.4%和R1-0528版本的44.6%,充分证明其在处理复杂代码任务时的可靠性已达到行业领先水平。针对多语言开发场景,DeepSeek-V3.1在SWE-Bench Multilingual评测中取得54.5%的优异成绩,较前代产品(V3-0324为29.3%,R1-0528为30.5%)实现近乎翻倍的提升,这一进步得益于研发团队在训练数据多样化方面的深入优化,使模型能够完美适配全球多语言开发环境。而在Terminal-Bench(终端自动化任务基准测试,用于量化AI智能体在命令行环境中完成复杂任务的能力,如脚本编写执行、文件系统操作及系统配置管理等真实工作流模拟)中,DeepSeek-V3.1以31.3%的得分远超V3-0324版本的13.3%和R1-0528版本的5.7%,这种在Agent框架下的效率提升,使其特别适合自动化运维、DevOps工程和智能系统管理等专业领域的应用需求。
DeepSeek-V3.1的此次重大更新,其战略重心在于全面增强模型的智能体核心能力,特别是在复杂推理场景和工具链协同工作流中的实际表现。通过深入分析可以发现,模型在搜索Agent应用、超长上下文理解、事实性问答和多模态工具使用等关键领域均展现出强势性能。基于MoE(混合专家)架构构建的DeepSeek-V3.1,总参数规模达到6710亿,激活参数370亿,在绝大多数性能基准测试中均显著优于前代产品R1-0528。尤其在搜索Agent和长上下文处理任务中,模型性能实现了20%-300%的平均提升,特别是在工具使用(如xbench-DeepSearch评测)和事实性QA(如SimpleQA数据集)等场景中保持领先优势,这些特性使其成为构建企业级AI Agent应用的理想选择,可广泛应用于自动化信息检索、智能代码辅助开发等专业领域。相较于专注推理能力但效率偏低的R1-0528版本,DeepSeek-V3.1更注重性能与效率的平衡优化,标志着DeepSeek正式开启“Agent时代”的技术战略布局。
在Huggingface平台发布的详细评估报告中,DeepSeek-V3.1展现出全面的性能提升。官方测评数据显示,该模型在常规推理和知识问答任务(如MMLU-Redux和MMLU-Pro)中整体表现稳定进步,无论是非思考模式还是思考模式下的得分均高于V3旧版本,基本达到行业顶尖大模型的性能水准。特别值得关注的是在HLE(Humanity’s Last Exam,搜索+Python复合推理)任务中,DeepSeek-V3.1实现了29.8%的通过率,不仅优于自家R1-0528版本的24.8%,更是逼近GPT-5、Grok 4等国际一线大模型的水平。尽管不同模型在评测标准上存在一定差异,但DeepSeek-V3.1展现出的技术实力依然具有充分的说服力。
专项测试表明,新版模型在网页检索精度、复合搜索任务和工具协同工作流(如BrowseComp、BrowseComp_zh、Humanity’s Last Exam Python+Search、SimpleQA等评测集)上实现了跨越式进步,其中中文网页搜索能力和多模态复合推理分数较旧版本提升尤为显著。在SWE-Bench Verified代码评测中,DeepSeek-V3.1以66.0%的成绩不仅大幅领先前代产品的44.6%,更与Claude 4.1、Kimi K2等当前顶级代码模型保持同一竞技水准。在Terminal Bench终端自动化测试中,其得分也已超越GPT-5和o3等知名竞品,展现出在系统自动化领域的强大应用潜力。与此同时,模型在代码生成和自动化评测(LiveCodeBench、Codeforces-Div1、Aider-Polyglot、SWE Verified、Terminal-bench)等专业维度的得分均较前代实现显著提升,特别是在智能体工作模式下,代码任务通过率和自动化执行能力的增强尤为突出。在AIME和HMMT等高级数学推理和竞赛任务中,DeepSeek-V3.1的表现同样优于前代产品,思考模式下的解题成功率实现了实质性突破。需要客观指出的是,作为通用对话模型,V3.1并未在所有维度均超越前代产品——在部分常规对话和基础知识问答场景下,R1-0528版本依然保持着一定的竞争力,这种差异化表现也反映出模型在专业化发展方向上的战略取舍。
在卓越性能表现之外,DeepSeek-V3.1的定价策略同样引发行业广泛关注。官方公布的Input API Price(输入定价)采用分级计费模式:Cache Hit(缓存命中)场景仅需0.07美元/百万tokens,而Cache Miss(缓存未命中)场景定价为0.56美元/百万tokens;Output API Price(输出定价)则统一为1.68美元/百万tokens。这种极具竞争力的价格体系,使得企业级用户能够以可控成本实现AI技术的规模化应用。MenloVentures的知名风险投资人、前谷歌搜索团队核心成员Deedy在其个人社交账号上专门发文盛赞这一突破性产品,直呼“技术巨鲸已然回归”,作为拥有20万粉丝的科技界专业人士,其评价无疑代表了专业投资机构对DeepSeek技术实力的高度认可。
更为重要的是,DeepSeek-V3.1首次实现了对Anthropic API的原生兼容,这一技术突破使得现有Anthropic生态用户能够无缝迁移至新平台。开发者可直接沿用Claude Code工具链或使用Anthropic官方SDK,仅需简单配置API地址和密钥,即可在所有支持Anthropic API的开发环境中顺畅使用DeepSeek-V3.1提供的强大推理和对话能力。这种生态兼容策略极大降低了企业的技术迁移成本,为模型的快速市场渗透创造了有利条件。
从目前行业反馈来看,外界对DeepSeek-V3.1的评价普遍积极正面。尽管该模型并非追求“全能冠军”式的全面超越,但其在AI Agent领域展现出的明确技术特色和核心优势,使其成为专业场景应用的理想选择。值得注意的是,从两天前DeepSeek低调发布V3.1-Base版本开始,开发者社区已对其发布节奏和技术透明度给予高度评价。与行业内部分厂商过度炒作规格参数的做法不同,DeepSeek坚持“开发者优先”原则,直接放出模型文件供开发者下载测试,随后再逐步补充技术细节,这种务实高效的产品发布策略赢得了全球开发者社区的广泛赞誉。
DeepSeek-V3.1的发布不仅是一次常规的产品迭代,更是AI技术从通用对话向专业Agent转型的关键标志。该模型通过平衡性能与效率、创新混合推理架构、优化工具调用逻辑等技术突破,为AI在企业级应用场景的规模化落地提供了全新可能。随着模型在自动化运维、智能开发、科学研究等领域的深入应用,我们有理由相信,AI Agent技术将在未来两年内迎来爆发式增长,而DeepSeek凭借其在技术布局上的前瞻性,正逐步确立在这一赛道的领先地位。对于开发者而言,现在即可通过官方渠道获取模型进行测试,仓库地址为https://gitcode.com/hf_mirrors/deepseek-ai/DeepSeek-V3.1,抢先体验新一代AI Agent技术带来的效率革命。
【免费下载链接】DeepSeek-V3.1 项目地址: https://ai.gitcode.com/hf_mirrors/deepseek-ai/DeepSeek-V3.1
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考



