大模型评测【DeepSeek】｜最新的DeepSeek-v3-0324相比旧版本提升了多少？哪方面提升最多？

最新推荐文章于 2025-08-29 00:00:00 发布

原创最新推荐文章于 2025-08-29 00:00:00 发布 · 1k 阅读

8 ·

CC 4.0 BY-SA版权

文章标签：

#AI大模型评测 #大模型实测横评 #大模型评测对比 #deepseek #大模型行业应用评测 #DeepSeek-v3 #DeepSeek-v3评测

DeepSeek-v3首发于2024年12月底，而最新版本发布于3月24日，即DeepSeek-v3-0324。官方也给出了在主流英文评测集上的前后效果对比，如下：

Model Performance

那么在中文上的效果提升多少呢？我们基于8大领域（300多个细分维度）的中文评测给出回答：

统计	deepseek-v3	deepseek-v3-0324	变化
总分	66.99	77.37	+15%
医疗	71.21	78.05	+10%
教育	77.04	85.46	+11%
金融	73.68	76.11	+3%
法律	39.57	61.50	+55%
行政公务	58.00	81.50	+41%
心理健康	56.00	64.62	+15%
推理与数学计算	81.08	86.25	+6%
语言与指令遵从	79.31	85.43	+8%

更多细分维度结果详见：https://github.com/jeinlee1991/chinese-llm-benchmark

从上表可知：

DeepSeek-v3-0324总分提高了15%，算是稳步提升。
而在法律和行政公务领域却有超出预期的巨幅改进，涨幅分别高达55%、41%。
相比之下，在金融领域却只有3%的微小提升。

关于大模型评测EasyLLM：https://easyllm.site

最全——全球最全大模型评测平台，已囊括200+大模型、300+评测维度
最新——每周更新大模型排行榜
最方便——无需注册/梯子，国内外各个大模型可一键评测
结果可见——所有大模型评测的方法、题集、过程、得分结果，可见可追溯
错题本——百万级大模型错题本
免费——为您的私有模型提供免费的全方位评测服务，欢迎私信

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

easyllm

关注关注

19
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

国产模型能否挑战 GPT-4？一文拆解 DeepSeek-V3 架构与实战应用

努力分享一些人工智能、计算机视觉、影像等相关的知识干货！

03-23

1783

DeepSeek-V3 是当前开源领域最接近 GPT-4 的中文大模型，采用稀疏激活的 MoE 架构，实现了“性能强大、成本可控”的理想平衡。它支持 128K 超长上下文、具备出色的中文理解与生成能力，并全面开源可商用，适合私有部署与行业落地。本文将系统解析 DeepSeek-V3 的架构原理、训练策略、部署方法与应用实战，涵盖从 ChatGPT 式助手到企业知识问答系统的完整路径，帮助你用好这个真正能“落地”的强大国产大模型。

2025国产AI三强对决：文心4.5、DeepSeek-V3、Qwen3深度测评——创作者选谁更趁手？

Loving_enjoy的博客

07-27

4467

💡 **横向总结**：**DeepSeek-V3** 在**前端实现简洁度**上胜出；**Qwen3** 在**系统设计完整性**上更优；**文心4.5** 在**移动端适配和多媒体**上表现突出。> ✍️ **创作方向建议**：**情感向选Qwen3**，**技术惊悚选DeepSeek**，**多模态创作选文心**。> ✅ **DeepSeek-V3 表现**：将逻辑问题转化为可验证的代码约束，体现其**强推理结构化能力**。if (actualDeg < 60) result = "一等奖";

参与评论您还未登录，请先登录后发表或查看评论

DeepSeek-V3-0324横空出世，国产大模型还得看DeepSeek（详细DeepSeek-V3-0324模型评测）

weixin_42782643的博客

03-30

1743

本文对3月24日凌晨发布的DeepSeek-V3-0324大模型进行了全面的介绍和详细的评测，揭示了DeepSeek-V3-0324大模型的强大能力，并点出0324为什么是Agent开发首选大模型！

DeepSeek | DeepSeek-V3新版本模型：DeepSeek-V3-0324，数学推理显著提升

yinizhilianlove的博客

03-25

1107

DeepSeek-V3模型升级：DeepSeek-V3-0324，数学推理显著提升

deepseek v3-0324实现浏览器插件：图片抓取与下载工具

Liudef06的博客

08-29

539

下面是一个完整的浏览器插件代码，可以抓取当前页面的所有图片，提供预览功能，并允许用户选择下载。

DeepSeek-V3-0324 已成非推理第一

fengdu78的博客

03-27

438

昨晚 DeepSeek-V3-0324 发布，今天 https://artificialanalysis.ai/上放出最新大模型智力排名，在非推理模型中，V3 排名第一。下面四张图分别是 DeepSeek-V3-0324 和 Claude-3.7 制作的，大家看吧，效果好的就是 Claude-3.7。比如新版 V3 模型，DeepSeek 官方也说了，新版 V3 在数学、代码类任务上表现优异，甚至超过 GPT-4.5。大模型测试，还是应该有自己的感受，不同类型任务找到适合的大模型去干。

最强Agent大模型！DeepSeek-V3-0324模型详细介绍与深度评测！

fufan_LLM的博客

03-27

2031

实际上，新款V3模型是国内首款、也是全球最强的具备强推理性能的对话模型，而在Agent技术大爆发的今天，这款模型才是DeepSeek盛名之下第一款具备工业级Agent开发能力的基础模型，甚至我相信未来，这款模型的影响力将不输于DeepSeek-R1模型。并且，得益于DeepSeek V3模型架构和R1模型架构完全一致，本地部署的R1模型可以无缝切换到V3模型，而若想进一步深入学习V3模型的Agent开发技术，也欢迎大家扫码加入大模型技术社区，我将持续为大家提供前沿技术视野和技术干货教学。

DeepSeek V3-0324：开启智能化开发新时代

ObsidianRaven13的博客

03-27

502

开发AI智能应用，就下载InsCode AI IDE，一键接入DeepSeek-R1满血版大模型！标题：DeepSeek V3-0324：开启智能化开发新时代在当今快速发展的科技领域中，人工智能（AI）已经成为推动技术革新的重要力量。从自然语言处理到图像识别，再到复杂逻辑推理，AI大模型正在以前所未有的速度改变着我们的工作和生活方式。而DeepSeek V3-0324作为最新的AI大模型之一，...

[特殊字符]DeepSeek 6850亿参数开源大模型！DeepSeek-V3-0324全方位测评！编程能力、文档分析、复杂推理能力、Text-to-SQL能力！

m0_71165399的博客

03-25

962

如何评价deepseek上线的deepseek-V3模型？怎么使用？

百态老人的博客

12-28

6214

DeepSeek-V3是一款性能强大且性价比高的大模型，适合广泛的应用场景，包括教育培训、内容创作、科研探索和产品开发等。其开源特性也为开发者提供了更多的灵活性和创新空间。用户可以通过官网或API服务快速上手，体验这一新一代AI模型的强大功能。整体性能DeepSeek-V3在多项评测中表现出色，与GPT-4o和Claude-3.5-Sonnet相当。

震惊世界的DeepSeek-V3技术与其他主流模型的全面评估对比

weixin_40143861的博客

02-03

3198

近年来，大型语言模型（LLM）一直在进行快速迭代和进化，比如Openai，Anthropic，逐渐减少（AGI）的差距。除了封闭式模型，开源模型，比如DeepSeek系列，也正在取得长足的进步，努力与封闭源同行缩小差距。为了进一步推动开源模型功能的边界，deepseek团队扩大了模型并引入DeepSeek-V3，这是具有671B参数的大型专家（MOE）模型，每个 token 都激活了37B。从具有前瞻性的角度来看，他们始终如一地努力争取强大的模型绩效和经济成本。

DeepSeek-R2未登场，DeepSeek-V3-0324先亮相：更强的AI编码，但少了“人情味”？

dotNET跨平台

03-25

1514

DeepSeek 正加速推进其旗舰模型 DeepSeek-R2 的发布，计划于 5 月前推出 R2/V4，全面强化推理、编码与多模态能力，力求在多个领域实现 SOTA，超越 GPT、Claude、Grok、Gemini 等顶尖模型。无论是基础的算术运算还是更复杂的代数求解，深度Seek V3-0324 的表现都更加准确、稳定，且具备更强的上下文理解能力。依托 DeepSeek 在智能硬件领域的布局，R2 有望整合文本、图像、音频与视频数据，实现更强的跨模态理解，支持复杂交互，为 AGI 奠定基础。

王炸！DeepSeek-V3-0324悄然发布：6850亿参数免费商用，Mac也能跑的编程神器

weixin_41446370的博客

03-25

2602

DeepSeek-V3-0324的震撼，不仅在于技术指标的飞跃，更在于它证明了顶级AI可以同时做到开源、免费、高性能。当硅谷还在争论"闭源模型是否更安全"时，DeepSeek用代码向世界宣告：真正的技术革命，永远属于那些把星辰大海写进开源协议的人。现在，打开你的Mac，启动那个352GB的模型文件吧——AI编程的全民时代，已经来临。

DeepSeek-V3-0324更新详解与入门指南：从技术突破到实际应用

weixin_43236925的博客

03-25

3741

2025年3月24日，DeepSeek推出的V3-0324版本（参数规模6850亿）虽定位为"小版本迭代"，却在代码能力、推理效率、开源协议三大维度实现跨越式发展。此次更新不仅让开源模型首次达到闭源顶级水平（如Claude 3.7 Sonnet），更通过MIT协议彻底解除商用限制，标志着AI技术平民化的重大突破。

InsCode AI IDE 2.0震撼发布！DeepSeek-V3-0324免费用：一句话生成蜘蛛纸牌+高颜值网页

优快云资讯

03-26

4014

今天，InsCode AI IDE 2.0版本在完成了“Agentic方式开发”和“一键在线部署”两大王炸功能升级后，接入最新的AI大模型“DeepSeek-V3-0324”震撼登场，再次引爆行业！近期，国内许多企业和培训机构也纷纷表达了与InsCode AI IDE的合作意向，旨在共同携手找出企业在业务上的痛点，基于AI来推动产业升级。当时的版本，主要功能以智能问答和单文件的AI代码生成和修改为主，功能有限，自动化程度较低，需要开发者对于工程的文件结构有比较清晰的了解，针对于有一定经验的开发者。

全网最速 DeepSeek-V3-0324 写代码实测！

强化学习曾小健

03-26

374

mandelbrot-set-meet-libai 测试，没有过多变化，分数较DeepSeek-V3 低了2分，主要还是将渲染方向搞反了以至于拖累了渲染性能，但是完成度可以看到比之前高很多。claude-3.7-sonnet-thinking 和 claude-3.5 (没错 claude-3.5 在我们的测试下比 claude-3.7。20 小球碰撞测试，肉眼可见的进步，之前 DeepSeek-V3 的小球挤成一团，现在物理运动模拟得非常好，仅因掉出了7边形扣了5分，项目排名第5。

DeepSeek-V3-0324重磅升级：开源大模型的新标杆

鸿蒙布道师

03-26

1611

DeepSeek-V3-0324的发布再次证明，开源大模型正在以惊人的速度缩小与商业模型的差距。虽然在某些复杂场景下仍有提升空间，但其性价比和开放性已经为AI普惠化开辟了新道路。作为开发者，我们正处在一个激动人心的时代——开源与闭源的良性竞争将推动整个AI领域向前发展。DeepSeek的这次"小更新"或许预示着大模型领域即将迎来新的格局洗牌。你认为开源大模型何时能全面超越商业模型？欢迎在评论区分享你的观点！附录：测试环境说明硬件：NVIDIA A100 80GB测试时间：2024年3月。

手把手带你玩转DeepSeek V3-0324：让工作、学习、生活全场景开挂指南

kaka0722ww的博客

04-16

1440

DeepSeek V3-0324就像你的私人智囊团，无论是职场高效输出、学习开挂逆袭，还是生活创意灵感，它都能一键搞定！关键是免费+开源+中文友好，再也不用忍受Claude的封号焦虑和天价账单啦～我的DeepSeek部署资料已打包好（自取↓）但如果你想知道这个工具为什么能“听懂人话”、写出代码甚至预测市场趋势——答案就藏在大模型技术里！❗️为什么你必须了解大模型？1️⃣ 薪资爆炸：应届大模型工程师年薪40万起步，懂“Prompt调教”的带货主播收入翻3倍。

DeepSeek-V3-0324-M33模型权重每个文件的作用