新版DeepSeek-R1-0528多项能力变弱！虽然推理能力变强

新版DeepSeek-R1-0528能力有升有降

原创已于 2025-06-25 17:48:06 修改 · 251 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#AI大模型评测 #大模型实测横评 #推理大模型评测 #大模型行业应用评测 #deepseek #deepseekR1 #大模型评测

于 2025-06-25 17:40:07 首次发布

【薇❤️】ai-xiao-mi-shu，➡️👗，保持与行业前沿同步！！！

DeepSeek-R1首发于2025年1月底，而最新版本发布于5月58日，即DeepSeek-R1-0528。官方也给出了在主流英文评测集（偏向数学、推理及编程能力）上的前后效果对比，如下：

那么在中文上的效果提升多少呢？我们基于8大领域（300多个细分维度）的中文评测给出回答：

类别	DeepSeek-R1	DeepSeek-R1-0528	变化
总分	80.9	81.7	+1%
医疗	82.3	80.7	-2%
教育	86.1	84.5	-2%
金融	82.9	78.0	-6%
法律	73.8	72.2	-2%
行政公务	84.7	96.7	+14%
心理健康	70.8	70.8	0%
推理与数学计算	83.2	87.7	+5%
语言与指令遵从	83.4	82.9	-1%

更多细分维度结果详见：https://github.com/jeinlee1991/chinese-llm-benchmark

总结

显著增强：行政公务、推理与数学计算 大幅优化。
变弱：金融（↓4.9）、法律（↓1.6）、教育（↓1.6）、医疗（↓1.6） 均有所下降，其中金融领域降幅较大。
基本稳定：心理健康、语言与指令遵从变化极小。

新版在行政公务和推理与数学计算方面表现更优，但金融、法律、教育、医疗等专业领域能力略有下滑，可能因优化方向侧重不同。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

easyllm

关注关注

3
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

DeepSeek-R1不同版本的 1.5B、7B、8B、14B、32B、70B、671B 主要区别以及各个蒸馏版本的优缺点

以为在机器学习领域与人工智能领域深耕多年的老牛

02-08

4万+

在人工智能大模型蓬勃发展的当下，DeepSeek-R1系列大模型凭借其出色的性能和广泛的应用潜力，受到了众多开发者和研究人员的关注。该系列包含1.5B、7B、8B、14B、32B、70B、671B等不同版本，每个版本都有其独特之处。今天，我们就来深入探讨一下这些版本的主要区别，以及各个蒸馏版本的优缺点，帮助大家在实际应用中做出更合适的选择。

DeepSeek-R1常见问题解答：避免无休止重复输出的解决方案

gitblog_00964的博客

09-16

1194

你是否曾遇到过这样的情况：当使用DeepSeek-R1进行复杂推理时，模型突然陷入无休止的重复输出？数学证明卡在建系步骤反复循环，代码生成在同一函数定义中打转，逻辑推理陷入前提复述的死循环——这些"循环陷阱"不仅浪费计算资源，更严重阻碍任务推进。作为基于大规模强化学习（Reinforcement Learning, RL）训练的新一代推理模型，DeepSeek-R1系列（包括Zero和Distil...

参与评论您还未登录，请先登录后发表或查看评论

免费GPU算力，不花钱部署DeepSeek-R1

奔跑的蜗牛的博客

01-24

4473

腾讯云Cloud Studio是一个基于云的集成开发环境（IDE），它提供了丰富的开发工具和资源，帮助开发者更高效地进行代码编写、调试和部署。最近，Cloud Studio推出了免费的GPU算力资源，用户每个月可以免费使用10000分钟的GPU服务器，配置为16G显存、32G内存和8核CPU。这对于需要高性能计算资源的开发者来说，无疑是一个巨大的福音。（用完后记得点关闭机器，下次微调再开启就可以了，环境自动保存，每个月10000分钟根本用不完）Ollama是一个开源的工具，专门用于管理和运行各种大模型。

DINO-R1: Incentivizing Reasoning Capability in Vision Foundation Models——激励视觉基础模型的推理能力

Together_CZ的博客

08-10

1097

DINO-R1: Incentivizing Reasoning Capability in Vision Foundation Models——激励视觉基础模型的推理能力

camel-ai 角色扮演 (deepseek-r1模型)

modelmd的博客

06-17

1296

CAMEL-AI，一个致力于探索智能体数据生成、世界模拟与任务自动化领域缩放法则的开源社区，其官方网站位于https://www.camel-ai.org。作为一个前沿的人工智能研究平台，CAMEL-AI不仅吸引了众多科研人员的关注，也为推动AI技术的发展贡献了重要力量。CAMEL-AI最为引人注目的特点是其作为世界上首个多智能体系统的身份。这一系统以数据驱动、状态保持和智能体友好为核心设计理念，旨在为用户提供一个高效、灵活的智能体应用构建平台。

从 Transformer 到 DeepSeek-R1：大型语言模型的变革之路与前沿突破

MnivL的博客

03-02

1731

本文详述大型语言模型（LLM）自 2017 年至 2025 年的发展历程。以 Transformer 架构为起点，其自注意力机制革新自然语言处理范式。随后 BERT、GPT 等模型相继涌现，GPT-3 展示出少样本和零样本学习能力，但 “幻觉” 问题凸显。2022 年 ChatGPT 通过 SFT 和 RLHF 技术应对该问题并引发全球关注。2023 - 2024 年多模态模型兴起，同时开源模型发展迅速。2024 年推理模型强调增强推理能力。

业内首次! 全面复现DeepSeek-R1-Zero 数学、代码能力，训练步数仅需R1-Zero 1/10

kuaishoutech的博客

04-24

1265

同时，基准测试结果表明，该模型的数学和编码能力都有持续和稳定的提高，证明了我们方法的有效性。当训练数据缺乏足够的复杂性或多样性，特别是简单的问题太多，模型会倾向于保守地维持其在较容易任务中的性能，难以得到解决挑战性问题所需的复杂、深入的推理能力。这反映了数学数据激发推理能力的特征。尽管在代码基准测试中的表现有所提高，但显式推理行为的发展甚微，并且实现响应长度的显著增加被证明是困难的。与纯数学训练相比，对代码和数学问题的响应都明显较短，代码任务的解决方案通常是直接生成的，缺乏实质性的逐步推理或初步分析。

大语言模型简史：从Transformer（2017）到DeepSeek-R1（2025）的进化之路

人工智能学家

02-26

1619

来源：21CTO编辑：场长原文参考：https://medium.com/@lmpo/%E5%A4%A7%E5%9E%8B%E8%AF%AD%E8%A8%80%E6%A8%A1%E5%9E%8B%E7%AE%80%E5%8F%B2-%E4%BB%8Etransformer-2017-%E5%88%B0deepseek-r1-2025-cc54d658fb432025年初，中国推出了具有开创性且高性...

一文汇总 DeepSeek R1 模型最新复现进展

AIBigModel的博客

02-22

1077

作者：绝密伏击,奇虎360算法资深专家原文：https://zhuanlan.zhihu.com/p/24906803874自 DeepSeek-R1 发布以来，迅速风靡全球，如今已晋升为国民级产品。此后，全球范围内掀起了一股复现 DeepSeek-R1 的热潮，其中不乏一些亮点纷呈的优秀项目。本文将对这些开源项目中的亮点复现工作进行汇总。

《DeepSeek R1：开启AI推理新时代》

zheng_ruiguo的专栏

01-23

4699

DeepSeek R1 作为人工智能领域的一颗璀璨新星，以其独特的技术架构、强大的性能表现和广泛的应用场景，展现出了巨大的潜力和价值。它的出现，不仅为科研人员提供了强大的研究工具，为企业带来了高效的解决方案，也为我们的日常生活增添了更多的便利和乐趣。从技术层面来看，DeepSeek R1 基于 Transformer 架构的创新设计，结合强化学习和多阶段训练策略，使其在推理能力上达到了新的高度。它支持长序列处理，能够理解和处理复杂的上下文信息，为解决各种复杂任务提供了有力支持。

DeepSeek-R1/Zero、RL GRPO以及蒸馏过程详解

02-11

2042

传统方法：老师先教 1000 道例题（SFT 数据），学生模仿练习。R1-Zero 方法：直接扔给学生 100 万道题，配一台“自动批改机”。学生自己摸索解法，机器实时反馈对错。最终，学生总结出一套高效的解题套路，甚至超越老师教的答案。这就是 R1-Zero 的核心——让 AI 在“题海战术+自动批改”中自我顿悟。传统做法：召集全国名师手写答案 → 耗时十年，成本爆炸。AI 辅助做法Step1：请 10 位名师写 100 道标准答案（冷启动数据）。Step2。

基于GEC6818平台的五子棋人机对战系统设计与实现

11-25

五子棋作为一种广为人知的策略性棋盘游戏，其基本规则易于掌握。在选定人机对战模式后，由程序执黑先行，用户执白应对。双方依次在棋盘上落子，任何一方在横向、纵向或斜向形成连续五个或更多同色棋子即获胜。项目资源涵盖多个技术领域的程序代码，涉及前后端开发、移动终端应用、操作系统、智能系统、物联网技术、信息管理系统、数据存储方案、硬件设计、大数据处理、教学资料、多媒体处理及网站构建等多个方向。具体技术实例包括嵌入式平台如STM32与ESP8266，编程语言如PHP、QT、C++、Java、Python、C#，系统开发如Linux与iOS，以及电子设计自动化工具和实时操作系统等。主要技术栈包含服务端开发语言Java、Python及Node.js，后端框架Spring Boot与Django，前端技术React、Angular与Vue，界面设计框架Bootstrap与Material-UI，数据库系统MySQL、PostgreSQL和MongoDB，缓存工具Redis，以及容器化部署方案Docker与Kubernetes。资源来源于网络分享，仅用于学习交流使用，请勿用于商业，如有侵权请联系我删除！

lv_0_20251125195629.mp4

11-25

lv_0_20251125195629.mp4

numpy、pandas、sklearn、pytorch等数据分析工具的一些使用技巧

11-25

NumPy数组操作实战技巧 numpy、pandas、sklearn、pytorch等数据分析工具的一些使用技巧

中国Cassandra数据库用户组开源社区项目-专注于Apache-Cassandra分布式NoSQL数据库技术研究与实践-提供技术文档下载与源码解析-集成Titan图数据库与Lu.zip

最新发布

11-25

Buffer内存管理实战技巧中国Cassandra数据库用户组开源社区项目_专注于Apache_Cassandra分布式NoSQL数据库技术研究与实践_提供技术文档下载与源码解析_集成Titan图数据库与Lu.zip中国Cassandra数据库用户组开源社区项目_专注于Apache_Cassandra分布式NoSQL数据库技术研究与实践_提供技术文档下载与源码解析_集成Titan图数据库与Lu.zip

图像处理基于电磁学优化算法的多阈值分割算法研究（Matlab代码实现）

11-25

【图像处理】基于电磁学优化算法的多阈值分割算法研究（Matlab代码实现）内容概要：本文研究基于电磁学优化算法（Electromagnetism-like Optimization, EMO）的多阈值图像分割方法，并通过Matlab代码实现。该方法借鉴电磁学中电荷间相互作用的机制，将图像分割问题转化为优化问题，利用EMO算法搜索最优阈值组合，以最大化分割效果的评价指标（如Otsu法或多级别熵）。文中详细介绍了EMO算法的基本原理、实现步骤及其在图像多阈值分割中的具体应用流程，展示了该算法能够有效避免传统方法易陷入局部最优的问题，从而获得更精确的分割结果。; 适合人群：具备图像处理基础知识和Matlab编程能力的高校学生、科研人员及工程技术人员。; 使用场景及目标：①解决复杂背景下图像的多目标分割问题，提升医学影像、遥感图像等领域的分割精度；②学习智能优化算法（如EMO）在图像处理中的实际应用，为研究新型分割算法提供技术参考和实现范例。; 阅读建议：在学习过程中应结合Matlab代码，深入理解EMO算法的寻优机制与图像分割评价函数的构建方法，建议自行调试不同参数对分割效果的影响，以加深对算法性能的理解。

DriverBooster12pro

11-25

DriverBooster12pro

Java8与Java21切换方法[项目代码]

11-25

本文介绍了如何通过设置环境变量实现Java8与Java21版本的自由切换，避免反复卸载安装。具体步骤包括分别安装Java8和Java21，设置JAVA_HOME环境变量指向所需版本，并调整Path变量中的路径顺序。此外，还提供了版本切换失效的解决方法，如重新打开cmd窗口或调整Path中路径的优先级。最后，文章提到了残留问题，如javac -version显示旧版本及java -version始终显示8版本的情况。

基于机器学习的糖尿病风险预测系统源码实现（含详细注释）

11-25

本研究提供一套运用机器学习技术进行糖尿病风险预测的系统源代码，该成果在学术评审中获得优异评价。程序结构清晰且附带详尽注释，便于初学者理解与应用。系统界面设计直观，功能模块完备，支持管理员高效管理操作。经过多轮严格测试验证，系统运行稳定可靠，具备显著的实践推广价值。本资源适用于毕业设计、课程结业作业及学术研究等场景，部署流程简单快捷，下载后即可直接投入教学或科研使用。所有程序文件均已完整包含在项目包内，确保开箱即用的便捷性。资源来源于网络分享，仅用于学习交流使用，请勿用于商业，如有侵权请联系我删除！

DeepSeek-R1：通过强化学习提升大模型推理能力

最终，DeepSeek-R1在多个权威推理基准测试中表现优异，其32B参数版本的性能可媲美OpenAI-o1-1217，展现出极强的数理推理、程序生成与跨领域知识整合能力。值得一提的是，DeepSeek团队高度重视开源生态建设，因此...