大模型评测【行业应用篇】教育行业｜「小学学科考试」大模型应用实测

原创

已于 2025-04-16 11:47:16 修改 · 588 阅读

10 ·

CC 4.0 BY-SA版权

文章标签：

#AI大模型评测 #大模型评测 #大模型实测横评 #大模型行业应用评测 #教育大模型 #教育大模型评测 #教育大模型行业应用评测

于 2025-04-11 14:33:26 首次发布

评测结果，如图所示：

公众号：大模型评测EasyLLM

【评测结论】：阿里系qwq-plus-2025-3-5（new）得分第一，豆包第二，qwq-32bn（ew）第3，腾讯系、百度系占据第4和第5名，其中qwq-32bn（ew）是前五中唯一的开源模型。

各科目完整评测题集及结果详见：https://github.com/jeinlee1991/chinese-llm-benchmark

【模型数量】：110个大模型（国内外，开源、闭源的大模型）

【评测维度】：「小学学科-试题答题」类目的5个学科的择题题集评测

小学英语
小学数学
初中语文
小学道德与法治
小学科学

【错题集】：请前往以下链接查阅👇

各科目完整评测题集及结果详见：https://github.com/jeinlee1991/chinese-llm-benchmark

大模型评测EasyLLM，目前已就DeepSeek和各个大模型的不同能力维度进行了综合评测（详情可回顾以下链接👇），接下来还会针对大模型当律师、医生、老师等各个岗位角色进行测评，看看谁是各个垂直领域的最强打工人！宝子们看好哪个大模型可以在哪些岗位胜任最强牛马？或者想评测大模型的哪方面能力？评论区留言，有求必测，一一公布结果！有评测样本、有图有真相！

往期文章

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

easyllm

关注关注

8
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

TCMBench: 用于评估中医药领域大型语言模型的全面基准

m0_59163425的博客

07-05

2276

大型语言模型（LLM）在各种自然语言处理任务中通过基准测试表现出色，包括在西医领域。然而，中医药（TCM）领域尚未涵盖专业评估基准，该领域历史悠久且影响深远。为了填补这一研究空白，我们介绍了TCMBench，一个用于评估LLM在中医药领域表现的全面基准。它包括TCM-ED数据集，包含来自TCM执业资格考试（TCMLE）的5,473个问题，包括1,300个具有权威分析的问题。它涵盖了TCMLE的核心组成部分，包括中医药基础和临床实践。

大模型评测【行业应用篇】教育行业｜「高考答题」大模型应用实测横评03.28

easyllm的博客

04-03

998

【评测结论】：deepseek得分第一，腾讯系混元系列模型、阿里系qwq系列模型分列2-5名，其中deepseek和qwq-32b（new）是前五中唯二的开源模型。

参与评论您还未登录，请先登录后发表或查看评论

大模型评测【行业应用篇】教育行业｜「初中学科考试」大模型应用实测03.28

easyllm的博客

04-10

412

【评测结论】：百度得分第一，豆包第二，deepseek第四，腾讯系混元系列模型占据第3和第5名，其中deepseek是前五中唯一的开源模型。各科目完整评测题集及结果详见：https://github.com/jeinlee1991/chinese-llm-benchmark

教育行业｜小学至高中3个阶段、9个学科、110个大模型应用实测横评！

easyllm的博客

03-31

1169

评测结论：字节系豆包大模型得分第一！DeepSeek排名第二，腾讯系大模型和阿里系大模型包揽3-5名，DeepSeek是排名前5中唯一的开源模型。

大模型评测【行业应用篇】教育行业｜「高中学科考试」大模型应用实测03.28

easyllm的博客

04-09

431

【评测结论】：豆包得分第一，deepseek第二，腾讯系混元系列模型分列3-5名，其中deepseek是前五中唯一的开源模型。各科目完整评测题集及结果详见：https://github.com/jeinlee1991/chinese-llm-benchmark

大模型评测【行业应用篇】法律行业｜律师资格考试，108个大模型应用实测横评！

easyllm的博客

04-03

833

法律行业-律师资格考试应用评测，评测结论：百度系大模型得分第一！腾讯系大模型包揽第2、第3名、第4名，DeepSeek排名第5名，前5名中hunyuan-large和DeepSeek-R1是唯二的开源模型。

大模型选型实战指南｜教育行业：108个模型「闭卷考试」实测，这3类应用场景直接抄作业！

easyllm的博客

05-15

1276

教育行业大模型选型必读 1.闭卷考试！独家评测集：用最新K12真题（小学-高中全学科）构建“闭卷考场”，108个模型同台竞技，数据污染率<5%（传统评测集污染率超60%） 2.价格透明对比：40元/M tokens的阿里系模型VS 2元/M tokens的字节系、腾讯系模型，谁更值？ 3.四大选型禁区：>60元但得分<75的模型被列入不推荐名单（附避坑清单） 4.核心结论直出：教学核心环节必须用专用模型，90%场景用通用模型可降本50%+

大语言模型评测体系全解析（中篇）：专项能力评测与行业垂直场景

dudly的博客

06-05

2368

本文解析大语言模型（LLM）专项能力评测与行业应用。数学推理评测转向步骤解析，MATH 设三级难度，MathEval 适配金融、教育场景；代码能力通过 HumanEval（学术）与 MBPP（工程）基准推动理论转化，DeepSeek-R1 将 MBPP 通过率提至 79%。多模态与长文本评测解析视觉逻辑、创意交互及上下文影响。医疗领域 MedBench 循证医学把控安全，安全领域 SecBench 构建攻防体系。文章指出评测面临数据标注成本高、跨领域迁移难等挑战，强调评测与工程结合是 LLM 落地关键。

大模型评测【综合能力篇】｜8大领域、107个大模型实测横评综合能力排行榜04.01

easyllm的博客

04-02

3213

《AI大模型应知应会100篇》第12篇：主流大模型全景：OpenAI、Anthropic、谷歌及国产模型对比

yweng18的博客

04-13

1384

随着人工智能技术的迅猛发展，大模型已成为当前AI领域的核心驱动力。本报告将全面解析全球主流大模型提供商的技术路线、产品特点及应用优势，涵盖OpenAI、Anthropic、谷歌等国际巨头以及百度、阿里、智谱等国产厂商的代表作。通过多维度比较，帮助读者建立清晰的大模型全景认知，了解各模型的技术特点与应用场景，为实际应用中的模型选择提供参考。

AI 超级智能体全栈项目阶段一：AI大模型概述、选型、项目初始化以及基于阿里云灵积模型 Qwen-Plus实现模型接入四种方式（SDK/HTTP/SpringAI/langchain4j）

Varin

09-27

2243

本文围绕 AI 大模型展开，介绍了其定义、特征、国内外优秀模型及分类，给出开发者学习与选型建议，还讲解了项目后端初始化及通过 SDK、HTTP、SpringAI、langchain4j 接入大模型的方式，并对比其优缺点，提及本地搭建调用参考。

基于GEC6818平台的五子棋人机对战系统设计与实现

11-25

五子棋作为一种广为人知的策略性棋盘游戏，其基本规则易于掌握。在选定人机对战模式后，由程序执黑先行，用户执白应对。双方依次在棋盘上落子，任何一方在横向、纵向或斜向形成连续五个或更多同色棋子即获胜。项目资源涵盖多个技术领域的程序代码，涉及前后端开发、移动终端应用、操作系统、智能系统、物联网技术、信息管理系统、数据存储方案、硬件设计、大数据处理、教学资料、多媒体处理及网站构建等多个方向。具体技术实例包括嵌入式平台如STM32与ESP8266，编程语言如PHP、QT、C++、Java、Python、C#，系统开发如Linux与iOS，以及电子设计自动化工具和实时操作系统等。主要技术栈包含服务端开发语言Java、Python及Node.js，后端框架Spring Boot与Django，前端技术React、Angular与Vue，界面设计框架Bootstrap与Material-UI，数据库系统MySQL、PostgreSQL和MongoDB，缓存工具Redis，以及容器化部署方案Docker与Kubernetes。资源来源于网络分享，仅用于学习交流使用，请勿用于商业，如有侵权请联系我删除！

lv_0_20251125195629.mp4

11-25

lv_0_20251125195629.mp4

numpy、pandas、sklearn、pytorch等数据分析工具的一些使用技巧

11-25

NumPy数组操作实战技巧 numpy、pandas、sklearn、pytorch等数据分析工具的一些使用技巧

中国Cassandra数据库用户组开源社区项目-专注于Apache-Cassandra分布式NoSQL数据库技术研究与实践-提供技术文档下载与源码解析-集成Titan图数据库与Lu.zip

最新发布

11-25

Buffer内存管理实战技巧中国Cassandra数据库用户组开源社区项目_专注于Apache_Cassandra分布式NoSQL数据库技术研究与实践_提供技术文档下载与源码解析_集成Titan图数据库与Lu.zip中国Cassandra数据库用户组开源社区项目_专注于Apache_Cassandra分布式NoSQL数据库技术研究与实践_提供技术文档下载与源码解析_集成Titan图数据库与Lu.zip

图像处理基于电磁学优化算法的多阈值分割算法研究（Matlab代码实现）

11-25

【图像处理】基于电磁学优化算法的多阈值分割算法研究（Matlab代码实现）内容概要：本文研究基于电磁学优化算法（Electromagnetism-like Optimization, EMO）的多阈值图像分割方法，并通过Matlab代码实现。该方法借鉴电磁学中电荷间相互作用的机制，将图像分割问题转化为优化问题，利用EMO算法搜索最优阈值组合，以最大化分割效果的评价指标（如Otsu法或多级别熵）。文中详细介绍了EMO算法的基本原理、实现步骤及其在图像多阈值分割中的具体应用流程，展示了该算法能够有效避免传统方法易陷入局部最优的问题，从而获得更精确的分割结果。; 适合人群：具备图像处理基础知识和Matlab编程能力的高校学生、科研人员及工程技术人员。; 使用场景及目标：①解决复杂背景下图像的多目标分割问题，提升医学影像、遥感图像等领域的分割精度；②学习智能优化算法（如EMO）在图像处理中的实际应用，为研究新型分割算法提供技术参考和实现范例。; 阅读建议：在学习过程中应结合Matlab代码，深入理解EMO算法的寻优机制与图像分割评价函数的构建方法，建议自行调试不同参数对分割效果的影响，以加深对算法性能的理解。

DriverBooster12pro

11-25

DriverBooster12pro

Java8与Java21切换方法[项目代码]

11-25

本文介绍了如何通过设置环境变量实现Java8与Java21版本的自由切换，避免反复卸载安装。具体步骤包括分别安装Java8和Java21，设置JAVA_HOME环境变量指向所需版本，并调整Path变量中的路径顺序。此外，还提供了版本切换失效的解决方法，如重新打开cmd窗口或调整Path中路径的优先级。最后，文章提到了残留问题，如javac -version显示旧版本及java -version始终显示8版本的情况。

基于机器学习的糖尿病风险预测系统源码实现（含详细注释）

11-25

本研究提供一套运用机器学习技术进行糖尿病风险预测的系统源代码，该成果在学术评审中获得优异评价。程序结构清晰且附带详尽注释，便于初学者理解与应用。系统界面设计直观，功能模块完备，支持管理员高效管理操作。经过多轮严格测试验证，系统运行稳定可靠，具备显著的实践推广价值。本资源适用于毕业设计、课程结业作业及学术研究等场景，部署流程简单快捷，下载后即可直接投入教学或科研使用。所有程序文件均已完整包含在项目包内，确保开箱即用的便捷性。资源来源于网络分享，仅用于学习交流使用，请勿用于商业，如有侵权请联系我删除！