让优秀的评测基准被看见｜2025司南年度最受欢迎评测集评选启动

最新推荐文章于 2025-12-25 19:33:33 发布

原创最新推荐文章于 2025-12-25 19:33:33 发布 · 661 阅读

8 ·

CC 4.0 BY-SA版权

文章标签：

#大模型评测 #司南评测 #大语言模型 #多模态模型 #人工智能

Daily Benchmark 专栏收录该内容

26 篇文章

订阅专栏

部署运行你感兴趣的模型镜像

每一个优秀的评测基准，都是大模型能力进化的重要基石。而那些从 0 到 1 构建评测基准的研究者与团队，往往站在行业最前沿，却并不总是被足够多的人看见。

2025 司南年度最受欢迎评测集评选活动正式启动！

如果你：

构建过一个扎实、可靠、有价值的评测基准
或者见过、用过、认可某个优秀的评测工作

都欢迎你来提交 / 推荐 / 投票，让真正有价值的评测工作被更多人看见。

如果你是来自学术界或产业界的专家，也非常期待你留下专业评价与建设性建议。你的每一条反馈，都是评测基准不断完善的重要参考。

让优秀的评测基准被看见，让真正有价值的工作被记住！期待你和司南一起，推动大模型评测走得更远、更稳。

活动页面直达链接：

https://hub.opencompass.org.cn/2025-annual-benchmark?lang=zh-CN

您可能感兴趣的与本文相关的镜像

Qwen3-VL-8B

图文对话

Qwen3-VL

Qwen3-VL是迄今为止 Qwen 系列中最强大的视觉-语言模型，这一代在各个方面都进行了全面升级：更优秀的文本理解和生成、更深入的视觉感知和推理、扩展的上下文长度、增强的空间和视频动态理解能力，以及更强的代理交互能力

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

司南评测

关注关注

17
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

视频生成模型权威评测基准VBench上线司南评测集社区

OpenCompass的博客

02-27

1794

VBench 不仅包含了 16 个分层和解耦的评测维度，确保了评估的全面性和细致度，还通过贴近人类感知的评测方法，提高了评估结果的真实性和可靠性。最新发布的 VBench++ 支持更广泛的视频生成任务，包括文本生成视频和图像生成视频，并配有一套自适应的图像套件，以便在不同的设置下进行公平评估。，榜单内容多次被知名视频模型厂商、头部科技媒体引用，能否在 VBench 榜单上名列前茅，已成为衡量视频生成模型性能的重要参考标准，深刻影响着行业的技术发展方向和产品研发策略。VBench 榜单目前已经成为。

司南MedBench3.0全面上新，4200次评测揭示医疗大模型能力长项与核心短板

OpenCompass的博客

03-21

1280

为将医疗大模型与主流领先模型横向对比，获取更直观指标参考，MedBench团队推出了“自建榜单”，评测GPT、Claude、Llama等国际主流模型在医疗场景下的能力水平，为医疗大模型参评机构提供对比依据和能力参照，加固医疗模型评测结果可信度。依托MedBench，实验室与中国软件评测中心正式启动医疗大模型基础能力评测服务，针对医疗大模型产品软件质量及性能开展评测，评测内容涵盖功能完备性、性能效率、通用基础能力、安全性、医疗伦理、知识掌握、临床实践等多方面，并接受定向应用场景评测。医疗大模型能力几何？

参与评论您还未登录，请先登录后发表或查看评论

司南评测集社区 2 月上新一览！

OpenCompass的博客

03-12

1178

KITAB-Bench是一个全面多领域阿拉伯文 OCR 和文档理解基准，包含 36 个子领域，超过 8,809 个样本，经过精心挑选，以严格评估阿拉伯文 OCR 和文档分析所需的基本技能，研究表明现代视觉-语言模型（如 GPT-4、Gemini 和 Qwen）在字符错误率(CER)方面比传统 OCR 方法（如 EasyOCR、PaddleOCR 和 Surya）平均高出 60%，领先模型 Gemini-2.0-Flash 也仅达到 65% 的准确率，体现了在准确识别阿拉伯语文本方面的挑战。

司南评测集社区 5 月上新一览

OpenCompass的博客

06-05

1208

MedArabiQ 是一个用于评估阿拉伯语医学任务的基准测试，包含七个任务，涵盖多种问题格式：多项选择题、填空题（有选项和无选项）、患者-医生问答对。

司南评测集社区 3 月上新一览！

OpenCompass的博客

04-02

1113

MiLiC-Eval 是针对中国少数民族语言的 NLP 评估套件，涵盖藏语（bo）、维吾尔语（ug）、哈萨克语（kk，哈萨克阿拉伯语）和蒙古语（mn，传统蒙古语）。

司南评测集社区 4 月上新一览

OpenCompass的博客

04-30

825

WorldScore 是用于世界生成的统一基准测试，包括一个精选数据集，其中包含 3000 个测试示例，包含静态和动态、室内和室外、逼真和风格化复杂的世界场景，并通过可控性、质量和动态性这三个关键方面评估生成的世界。

AI评测趋势一站速览，司南Daily Benchmark专区上线！

OpenCompass的博客

11-13

347

作为司南评测体系的重要组成部分，司南评测集社区 CompassHub 致力于打造创新性的基准测试资源导航社区，提供丰富、及时、专业的评测集信息，让研究者与开发者轻松查找、分享与使用各类基准，共同探索 AI 技术的真实能力边界。为了让大家第一时间掌握 AI 评测最新趋势，司南评测集社区全新推出「Daily Benchmark」专区，带你直观了解最新 AI 评测论文，洞悉模型能力演进趋势。无论你是想追踪全球 AI 评测趋势的研究者，还是希望验证模型真实能力的开发者，司南评测集社区都将成为你的得力助手。

司南评测体系全新升级，“五位一体”评估全链路关键能力

OpenCompass的博客

07-21

969

面对通用人工智能技术持续突破与应用场景日益多元的趋势，升级后的司南评测体系构建了涵盖底层算力、通用模型、具身智能、安全可信与垂直行业在内的完整评测链条，致力于为行业提供统一、权威的技术评价标准，推动 AI 能力与实际需求紧密结合，助力通用人工智能在各领域实现安全、可信和高效的落地应用。在通用人工智能时代加速到来的背景下，专业、公正、开放的评测体系是确保人工智能安全、高效发展的关键环节，它不仅是技术发展的“试金石”，也是连接技术与应用、促进跨领域合作的重要桥梁。AI 模型的持续演进离不开底层计算力的支撑。

司南 OpenCompass 九月大语言模型评测榜单启动召集，欢迎新合作厂商申请评测

OpenCompass的博客

09-20

1283

司南 OpenCompass 大语言模型官方自建评测榜单，综合评估商业 API 模型和开源模型在语言、推理、知识、代码、数学、指令跟随、智能体七大能力维度，这七个维度可以被进一步细分为包括自然语言处理、理工科知识、常识推理、数值计算能力、代码续写、算法面试、高等数学、通用工具调用等十余项细分任务，力图对行业开源模型和商业 API 模型进行全面评测分析。，面向大模型能力评测开源开放的基准社区，提供海量的面向不同能力维度和行业场景的评测基准。

T-Eval：大模型智能体能力评测基准解读 | ACL 2024

OpenCompass的博客

07-29

4103

AI Agent（智能体）作为大模型的重要应用模式，能够通过使用外部工具来执行复杂任务，完成多步骤的工作流程。为了更全面地评估模型的工具使用能力，司南及合作伙伴团队推出了T-Eval评测基准，相关成果论文已被ACL 2024主会录用。

顶会评测集解读-AlignBench: 大语言模型中文对齐基准

OpenCompass的博客

12-23

1622

因此，该团队使用了三种相对先进的支持中文的 LLMs，包括 GPT-3.5-turbo、ChatGLM APIs 和 Sparkdesk，作为该团队构建流程中的难度过滤器。该团队设计了一个可持续的、包含人工参与的数据策划流程，并改进了LLM作为评判者（LLM-as-Judge）的方法，使AlignBench能够对LLMs的中文对齐进行高质量的自动评估。此外，基于规则的评分在解释方面优于一般评分，该结果证明了评分规则能够提供明确的基于参考的标准，从而有助于清晰地比较参考答案和模型答案。

幽冥大陆(五十四)ASR C语言识别到自动化软件——东方仙盟筑基期

cybersnow精通 28 门计算机语言，凭借其超凡的技术能力，成功开发过上万个应用，广泛涉及政府、商业、个人等众多领域，甚至在检察院、环保局、公安局等专业场景中也大放异彩。不仅熟练掌握单片机和物联网开发，在软件架构设计方面更是独树一帜，自创了跨平台软件

12-20

1411

ASR（Automatic Speech Recognition，自动语音识别）技术在软件自动化命令领域正掀起一场变革。它使得软件系统能够理解人类语言，并依据指令自动执行任务。通过 ASR，用户无需手动输入复杂的命令或进行繁琐的界面操作，只需说出指令，软件就能精准响应。在自动化脚本编写中，ASR 可以实时将语音转化为代码命令。例如，在编写 Python 自动化脚本时，用户说出 “创建一个名为‘data’的列表”，ASR 系统就能将其转化为对应的 Python 代码data = []。

【AI学习-comfyUI学习-第二十三-法线贴图工作流-depth 结构+MiDaS 法线-各个部分学习】

qq_22146161的博客

12-25

656

最近，学习comfyUI，这也是AI的一部分，想将相关学习到的东西尽可能记录下来。不断学习摸索中。

做了一块可以调用百度云语音识别api和tts api的esp32 s3开发板，支持跑ai小智机器人的源码，基于idf5.5.1库编译，分享下

net3m33的专栏

12-25

199

做了一块可以调用百度云语音识别api和语音合成tts接口的esp32 s3开发板，支持跑ai小智机器人的源码，基于idf5.5.1库编译，分享

Q-learning 算法 —— 无模型（model-free）强化学习

一杯水果茶！足矣~

12-25

776

从已知模型到 Model-free 的强化学习转变：Q-Learning 算法，通过详细示例来讲解，理解 Q-table 的更新和贪婪策略

2025国自然资助率12.29%创新低！2026年如何用数据与AI“破局”？

最新发布

imbackneverdie的博客

12-25

618

这绝非简单的文字堆砌，它内在嵌入了对国自然申报规范的理解，能有效帮你规避常见的“方向偏离”“逻辑混乱”“格式错误”等基础问题，将你从繁琐的框架搭建中解放出来，专注于核心内容的精雕细琢。国自然2025年的资助率降至历史新低的12.29%，数万科研人员面对着更激烈的竞争与更严格的评审标准，对于2026年度的申报者而言，“高效准备，少走弯路”已不是口号，而是生存法则。它不仅告诉你“是什么”，更分析“为什么”和“怎么办”，直接为你的选题方向和立项论证提供坚实的数据支撑。模块，堪称科研人员的“选题外脑”。

[LLM]AIM: Adaptive Inference of Multi-Modal LLMs via Token Merging and Pruning

天下事有难易乎？为之，则难者亦易矣；不为，则易者亦难矣。人之为学有难易乎？学之，则难者亦易矣；不学，则易者亦难矣。

12-20

764

本文提出AIM框架，一种无需训练的多模态大语言模型(MLLMs)推理加速方法。通过双阶段设计：在LLM前基于相似度合并视觉Token，在LLM内基于注意力重要性剪枝Token，显著降低计算量。实验表明，该方法在视频理解任务中可减少6.8倍FLOPs，在图像任务中保持3.7倍加速的同时维持性能。关键发现包括：75%视觉Token冗余、LLM早期层侧重跨模态融合而后期侧重文本推理、跨帧合并会损害视频理解等。该方法支持动态调整压缩比例，为资源受限环境下的高效多模态推理提供了实用解决方案。

企业级 RAG 问答系统开发上线流程分析

hello！

12-22

1343

这个项目流程是一个非常典型的。

界面重构与本地化实践：凤希AI伴侣的自动化演进思考凤希AI伴侣2025年12月21日

12-21

861

昨日工作总结：完成凤希AI伴侣三项核心开发：1）重构模型选择界面，实现弹窗式分类展示；2）成功测试本地大模型的OCR功能；3）优化配置数据存储方案，采用本地存储+版本管理提升效率。同时深入探讨了AI工具自动化的本质价值——解放人类创造力。今日计划新增内容管理模块，实现H5页面文案和运营推广文案的系统化沉淀。全文由凤希AI智能生成，展现AI辅助工作的实际应用价值。

司南评测本地大模型怎么使用

01-01

### 使用本地大规模语言模型司南进行评测 #### 配置环境与准备为了使用本地部署的大规模语言模型（如司南）进行评估，需先完成必要的配置工作。这涉及安装所需软件包以及设置运行环境。确保已准备好所需的硬件资源和支持的计算平台。 ```bash pip install opencompass # 安装OpenCompass库 ``` #### 创建评估项目结构建立合理的文件夹架构来管理不同的组件，包括但不限于： - `config/`：存储所有的配置文件。 - `datasets/`：放置待测的数据集。 - `models/`：存放预训练好的模型权重或其他必要参数。 - `results/`：保存最终生成的结果文档。 #### 编写配置文件编写JSON或YAML格式的配置文件以指定具体的评估选项。此步骤决定了哪些模型将被测试、采用何种数据源以及期望得到怎样的输出形式等细节[^3]。 ```json { "model": { "name": "snnan", "path": "./models/snnan" }, "dataset": [ {"type": "math", "file": "./datasets/math_problems.json"}, {"type": "coding", "file": "./datasets/code_samples.py"} ], "output_dir": "./results/" } ``` #### 执行推理与评估流程通过命令行工具启动评估进程，此时系统会依据之前设定的内容自动处理各项任务，并行地对选定的模型和数据集实施推理操作，随后进入正式的评分环节。 ```bash opencompass evaluate --config ./config/evaluation_config.yaml ``` #### 结果分析与展示当所有运算结束后，程序自动生成易于解析的日志记录及统计图表，帮助直观理解各方面的表现情况。除了基本的文字描述外，还可能附带图形化的总结材料以便更清晰地传达信息。 ```python import pandas as pd df = pd.read_csv('./results/performance_report.csv') print(df.head()) ```