司南评测-优快云博客

原创 Seed1.5-VL登顶，国产闭源模型弯道超车丨多模态模型5月最新榜单揭晓

随着图像、文本、语音、视频等多模态信息融合能力的持续增强，多模态大模型在感知理解、逻辑推理和内容生成等任务中的综合表现不断提升，正在展现出愈发接近人类的智能水平。多模态能力也正在从底层的感知理解，迈向具备认知、推理、决策能力的高阶智能，成为通向通用人工智能的重要路径。与此同时，随着模型基础能力的持续增强，多模态模型在各行各业的应用日益深入。从最初“能看懂、会表达”的基础阶段，逐步发展为“能思考、会协作、懂语境”的高级形态，推动智能新时代的加速到来。司南持续关注大模型的发展动态，，近期针对。

2025-06-06 19:05:31 766

原创司南评测集社区 5 月上新一览

MedArabiQ 是一个用于评估阿拉伯语医学任务的基准测试，包含七个任务，涵盖多种问题格式：多项选择题、填空题（有选项和无选项）、患者-医生问答对。

2025-06-05 10:45:10 944

原创选翻译模型不再靠感觉！首个AI翻译实战榜来了，通用、行业、文化全面测评

随着AI大模型加速落地，翻译模型也迈入了“拼实力、看实用”的新阶段。近日，由共建的。该榜单基于，围绕三大核心维度，精心设计评估体系，并构建高质量、多语种、多场景的评测数据集，全方位、多维度地量化翻译模型在不同行业、不同语言环境下的综合能力。与传统的翻译测评相比，TransBench增加了幻觉率、文化禁忌词、敬语规范等指标，首次面向工业界针对细分行业领域构建评测数据和评测方法。这些指标均来自真实场景的使用反馈，以此来测评大模型是否符合大规模应用的标准。

2025-05-30 18:16:22 539

原创谁才是最懂你的多模态大模型？主观评测榜单揭晓，“场景中”见真章！

具备跨模态理解能力的多模态大模型能实现更为丰富、全面的理解与生成，在复杂场景中表现得更接近人类水平，已然成为人工智能领域的重要发展方向。从图文理解、视觉问答到图像推理，模型们看似“万事通”，但真正打动人心、贴近用户需求的模型，究竟该如何评判？国内外主流的闭源模型（如GPT-4.1-20250414、Gemini-2.5-flash等）和开源模型（如InternVL3系列、Qwen2.5-VL系列等），围绕着等多个维度进行了全面评测。相比客观评测，这份榜单采用的，能够更好反映模型在“场景中”的综合能力。

2025-05-22 11:22:51 639

原创 Gemini-2.5-Pro登顶，推理模型强势领跑丨大语言模型4月最新榜单揭晓

大模型技术在全球范围内持续加速演进，各大科技公司竞相推出新一代模型，不断突破语言理解、逻辑推理、代码生成等关键能力的上限，推动AI从单一任务助手迈向多领域协同的智能体。与此同时，以“推理能力”为核心的新模型大量涌现，成为近期技术演进的焦点。从数学计算、逻辑推理到科学问答与代码生成，推理模型不断刷新AI在复杂任务中的表现边界，呈现出从“会答”向“会推理”的跃升趋势。在这一过程中，技术创新与实际应用加速融合，正在重塑人工智能的能力边界与产业格局。

2025-05-14 16:39:45 767

原创司南评测集社区 4 月上新一览

WorldScore 是用于世界生成的统一基准测试，包括一个精选数据集，其中包含 3000 个测试示例，包含静态和动态、室内和室外、逼真和风格化复杂的世界场景，并通过可控性、质量和动态性这三个关键方面评估生成的世界。

2025-04-30 14:10:26 674

原创司南评测集社区 3 月上新一览！

MiLiC-Eval 是针对中国少数民族语言的 NLP 评估套件，涵盖藏语（bo）、维吾尔语（ug）、哈萨克语（kk，哈萨克阿拉伯语）和蒙古语（mn，传统蒙古语）。

2025-04-02 17:17:01 958

原创 OmniAlign-V：多模态大模型人类偏好对齐新突破

多模态大模型（MLLMs）在视觉、语言理解等领域展现出强大的能力，但如何让这些模型更好地对齐人类偏好，生成更符合人类认知习惯的内容，仍然是一个核心挑战。近日，上海人工智能实验室联合团队发布了最新研究成果 OmniAlign-V，针对这一问题提出了新的数据集和评测基准。探索了语言数据和多模态数据对多模态大语言模型的语言能力以及多模态客观/主观指标的影响，发现：高质量语言数据的加入并不能增强多模态模型的对齐能力，还会降低通用视觉问答（General VQA ）任务上的性能。

2025-03-24 16:46:29 888

原创土木工程领域大模型哪家强？六大维度全面评测！

目前已发布的榜单包含土木工程榜单、网络安全榜单、金融榜单、价值对齐榜单、法律榜单、医疗榜单。，围绕土木工程教育与工程实践的核心能力，设置了六大评测维度，全面评估大模型在土木工程领域的知识理解、推理能力及应用能力。随着大语言模型在土木工程领域应用的不断拓展，其专业知识的准确性、工程推理能力及实际应用价值亟需科学、客观的评测。测试大模型在测绘案例分析、测绘管理与法律法规、测绘综合应用等方面的能力，评估其在测绘与地理信息领域的应用潜力。联系邮箱 opencompass@pjlab.org.cn。

2025-03-21 17:00:00 306

原创司南MedBench3.0全面上新，4200次评测揭示医疗大模型能力长项与核心短板

为将医疗大模型与主流领先模型横向对比，获取更直观指标参考，MedBench团队推出了“自建榜单”，评测GPT、Claude、Llama等国际主流模型在医疗场景下的能力水平，为医疗大模型参评机构提供对比依据和能力参照，加固医疗模型评测结果可信度。依托MedBench，实验室与中国软件评测中心正式启动医疗大模型基础能力评测服务，针对医疗大模型产品软件质量及性能开展评测，评测内容涵盖功能完备性、性能效率、通用基础能力、安全性、医疗伦理、知识掌握、临床实践等多方面，并接受定向应用场景评测。医疗大模型能力几何？

2025-03-21 11:22:58 882

原创司南评测集社区 2 月上新一览！

KITAB-Bench是一个全面多领域阿拉伯文 OCR 和文档理解基准，包含 36 个子领域，超过 8,809 个样本，经过精心挑选，以严格评估阿拉伯文 OCR 和文档分析所需的基本技能，研究表明现代视觉-语言模型（如 GPT-4、Gemini 和 Qwen）在字符错误率(CER)方面比传统 OCR 方法（如 EasyOCR、PaddleOCR 和 Surya）平均高出 60%，领先模型 Gemini-2.0-Flash 也仅达到 65% 的准确率，体现了在准确识别阿拉伯语文本方面的挑战。

2025-03-12 20:25:45 986

原创司南首期多模态模型闭源榜单发布！48个模型同台竞技，谁将脱颖而出？

凭借对文本、图像、语音等多模态数据的融合处理能力，多模态大模型实现了更为丰富、全面的理解与生成，在复杂场景中表现得更接近人类水平，已然成为人工智能领域的重要发展方向。然而，随着评测基准的激增，数据污染问题日益凸显，导致模型在评测中“记住”答案，从而高估了模型性能，降低了评测基准的可信度。为解决这一问题，司南推出了多模态模型，评测数据，包含多项细分评估维度，确保测试数据的新颖性和客观性，从而真实评估多模态模型的综合能力，为模型评估提供更可靠、更全面的基准。

2025-03-12 14:44:46 796

原创视频生成模型权威评测基准VBench上线司南评测集社区

VBench 不仅包含了 16 个分层和解耦的评测维度，确保了评估的全面性和细致度，还通过贴近人类感知的评测方法，提高了评估结果的真实性和可靠性。最新发布的 VBench++ 支持更广泛的视频生成任务，包括文本生成视频和图像生成视频，并配有一套自适应的图像套件，以便在不同的设置下进行公平评估。，榜单内容多次被知名视频模型厂商、头部科技媒体引用，能否在 VBench 榜单上名列前茅，已成为衡量视频生成模型性能的重要参考标准，深刻影响着行业的技术发展方向和产品研发策略。VBench 榜单目前已经成为。

2025-02-27 14:23:51 1028

原创司南发布“以人为本”的大模型评测体系，认知科学驱动，更贴近人类需求

2月22日，2025GDC“浦江AI生态论坛”在上海徐汇举行。论坛现场，大模型开放评测平台司南正式发布“以人为本”（Human-Centric Eval）的大模型评测体系，系统评估大模型能力对人类社会的实际价值，为人工智能应用更贴近人类需求，提供可量化的人本评估标注司南团队突破性引入认知科学理论，秉持“以人为本”的核心精神，提出“解决问题能力、信息质量、交互体验”三维度的大模型主观评测体系。

2025-02-25 11:08:05 779

原创司南大语言模型最新榜单发布！DeepSeek-R1 登顶，推理模型大放异彩！

2025 年伊始，尤其是春节假期前后一段时间，大模型领域犹如一场科技盛宴，每一天都为我们带来前所未有的惊喜与震撼。其中，DeepSeek 发布的 DeepSeek-R1 模型尤为瞩目，它不仅刷新了行业标准，更以其卓越的表现和创新的技术，在全球范围内引发了广泛关注，成为这一时期当之无愧的“话题王”。司南持续关注大模型的发展动态，近期针对国内外主流大语言模型进行了全面评测，现公布！本次榜单囊括了国内外共 41 个大语言模型，包含国内外主流闭源模型和社区开源模型。

2025-02-20 20:48:37 1105

原创检验大模型数学推理能力，司南发布全新评测指标与评测集

与此同时，当前模型的性能潜力和实际表现之间存在显著的差距，一些模型在单次任务上表现出高准确率，但在保持一致高准确率方面却不稳定，远未达到最佳性能，如何在保持接近最佳性能的同时确保输出的稳定性，或将成为强推理领域的重点突破方向。近日，大模型开放评测体系司南（OpenCompass）推出评测指标G-Pass@k及数学评测集LiveMathBench，旨在客观地检验大模型的数学推理能力，为行业提供更加精准可信的评测结果，助力强推理模型性能提升，加速大模型在高难度推理场景中的落地应用。次生成正确答案的概率。

2024-12-31 14:57:12 1336

原创司南OpenCompass评测工具正式加入PyTorch Ecosystem

通过与 PyTorch 社区的深度融合，OpenCompass 将进一步提升评测工具的性能与影响力，推动大模型评测技术的发展。司南 OpenCompass 大模型开源评测体系专注于评测工具、评测基准、评测榜单以及大模型能力分析与提升等方向的工作，致力于构建覆盖大模型评测全链条的研发生态。日前，司南 OpenCompass 评测工具正式加入 PyTorch Ecosystem 体系，这一进展不仅彰显了司南 OpenCompass 评测工具的技术实力，还为开发者与研究人员带来了更加便捷的模型评测体验。

2024-12-31 14:40:38 654

原创 CompassArena新升级：Judge Copilot提升竞技体验，新一代Bradley-Terry模型还原模型真实能力

引入搜索功能的控制变量后，具备搜索功能的模型（标记为 w/search）的排名发生了显著变化。值得注意的是，Hunyuan-Pro w/search 和 Spark-v4.0-Ultra w/search 的排名在控制搜索功能后并未发生明显变化，这表明这些模型的能力估计较为准确，受搜索功能的影响较小。相比之下，其他排名靠前的大模型，如 GLM-4-Plus、Hunyuan-Pro 和 Qwen2-72B-Instruct，则在一定程度上受到对话风格和搜索功能的影响，导致其排名发生变化。

2024-12-25 10:57:13 1496

原创 OpenCompass 支持魔搭 P-MMEval 数据集：面向大模型的多语言平行评测集

此外，P-MMEval 确保所有挑选的数据集中的多语言覆盖一致，并提供跨多种语言的并行样本，最高支持来自 8 个不同语族的 10 种语言（英、中、阿、西、日、韩、泰、法、葡、越）。对各种 LLM 的多语言能力进行了全面分析，不仅分析了 P-MMEval 中每个数据集在区分模型性能方面的有效性，并探索了模型性能受到推理提示、模型类型、模型尺寸、语言种类和任务类型的影响。它整合了基础自然语言处理任务和能力特定的评估任务，确保每个任务在语言覆盖上的一致性，并提供跨语言的平行样本，以便进行一致的比较。

2024-12-25 10:50:46 1109

原创速看！2024 ACL 评测基准专场直播回顾&干货资料来了

评测集社区 CompssHub 作为司南 OpenCompass 大模型评测体系的重要组成部分，致力于简化并加快研究人员和行业人士搜索和使用评测集的过程。评测集社区 CompssHub 目前已收录了学科、推理、知识、代码等 12 个方向的评测集，欢迎大家探索。

2024-12-24 11:27:18 1069

原创 NeurIPS 2024 | 真实世界复杂任务，全新基准 GTA 助力大模型工具调用能力评测

相较而言，GTA 的问题既是步骤隐含的，也是工具隐含的，并且是基于现实世界场景的、对人类有帮助的任务。真实用户查询：包含 229 个人类撰写的问题，问题具有简单的真实世界目标，但解决步骤是隐含的，工具也是隐含的，要求模型通过推理来选择合适的工具并规划操作步骤。GTA 通过设计真实世界场景的用户问题、真实部署的工具和多模态输入，建立了一个全面、细粒度的评估框架，能够有效评估大语言模型在复杂真实场景下的工具使用能力。针对工具调用设计了细粒度的评测指标，揭示工具增强的语言模型在真实世界场景中的推理和规划能力。

2024-12-24 11:16:29 818

原创突破短视频局限！MMBench 构建中长视频开放问答评测基准，全面评估多模态大模型视频理解能力

本文经量子位（公众号 ID: QbitAI）授权转载，作者：新宇GPT-4o 四月发布会掀起了视频理解的热潮，而开源领军者 Qwen2 也对视频毫不手软，在各个视频评测基准上狠狠秀了一把肌肉。，视频长度或视频镜头数不足，难以考察到模型的长时序理解能力；对模型的考察局限在部分较为简单的任务，；现有的基准仍可以仅凭单帧图像以获取较高的分数，说明；，打分和人类偏好有较大的偏差且并不准确，容易高估模型性能。针对这些问题，有没有对应的基准能够较好解决这些问题呢？

2024-12-23 15:19:40 930 1

原创顶会评测集解读-AlignBench: 大语言模型中文对齐基准

因此，该团队使用了三种相对先进的支持中文的 LLMs，包括 GPT-3.5-turbo、ChatGLM APIs 和 Sparkdesk，作为该团队构建流程中的难度过滤器。该团队设计了一个可持续的、包含人工参与的数据策划流程，并改进了LLM作为评判者（LLM-as-Judge）的方法，使AlignBench能够对LLMs的中文对齐进行高质量的自动评估。此外，基于规则的评分在解释方面优于一般评分，该结果证明了评分规则能够提供明确的基于参考的标准，从而有助于清晰地比较参考答案和模型答案。

2024-12-23 15:16:04 1368

原创还在GPT-4o进行评测么？快来试试开源评价大模型CompassJudger

在进行主观评测的过程中，通常需要一个 Judge Model 来对待测模型的回复进行评分或比较，从而代替人类来进行这一评价工作，得到待测模型在各类主观题上的得分。过去，这往往是由能力较强的闭源模型如 GPT4 来进行的，GPT4 也因此成为了在 AlignBench，AlpacaEval，ArenaHard 等数据集上的标准评测模型。然而，在科学研究和模型迭代的过程中，往往需要进行大规模的评测，而使用闭源模型的成本非常高昂。

2024-10-23 10:52:45 757

原创 CaLM 因果推理评测体系：如何让大模型更贴近人类认知水平？

因果发现旨在从数据或语义中推测出潜在的因果结构，关联探索数据间的统计依赖关系，干预预测有意改变环境中的变量所带来的影响，以及反事实则对假设的替代场景进行推理。针对模型、提示词以及因果场景，CaLM 中分别设置了不同的评估标准，覆盖包括准确率、鲁棒性、理解度等 7 种，全面反映模型的因果推理能力和鲁棒性、提示词有效性。司南 OpenCompass 大模型能力评测体系将持续与业界共同推进大模型在因果推理领域的评估工作，携手构建一个开放、公平、透明的大语言模型评估体系，促进大语言模型技术的健康发展和持续创新。

2024-09-24 14:24:09 1232

原创司南 OpenCompass 九月大语言模型评测榜单启动召集，欢迎新合作厂商申请评测

司南 OpenCompass 大语言模型官方自建评测榜单，综合评估商业 API 模型和开源模型在语言、推理、知识、代码、数学、指令跟随、智能体七大能力维度，这七个维度可以被进一步细分为包括自然语言处理、理工科知识、常识推理、数值计算能力、代码续写、算法面试、高等数学、通用工具调用等十余项细分任务，力图对行业开源模型和商业 API 模型进行全面评测分析。，面向大模型能力评测开源开放的基准社区，提供海量的面向不同能力维度和行业场景的评测基准。

2024-09-20 17:09:11 1179 1

原创两行代码开启大模型评测之旅！OpenCompass 工具版本全面更新，快来试试看

作为 OpenCompass 司南大模型评测体系三大核心模块之一的评测工具链体系 CompassKit 近日迎来，更新内容主要集中在 OpenCompass 大语言模型评测工具，本文介绍了新功能的使用方法。

2024-09-03 16:57:16 1472

原创 Compass Arena 上新啦！新增双多模态模型匿名对战

2024 年 5 月，上海人工智能实验室司南 OpenCompass 团队与魔搭 ModelScope 联合推出了大模型评测平台——Compass Arena（大模型竞技场），为国内的大语言模型领域引入了一种全新的竞技模式。今天，Compass Arena 迎来重磅更新，新增了多模态大模型竞技版块——Compass Multi-Modal Arena。在这个全新的竞技场，用户可以轻松体验和比较多款主流多模态大模型的效果，找到适合自己的。

2024-08-09 17:24:03 1364

原创多模态模型评测神器 | OpenCompass MMBench 了解一下！

MMBench 是 OpenCompass 研究团队自建的视觉语言模型评测数据集，可实现从感知到认知能力逐级细分评估。研究团队从互联网公开信息与权威基准数据集采集约 3000 道单项选择题，覆盖目标检测、文字识别、动作识别、图像理解、关系推理等 20 个细粒度评估维度。

2024-08-06 14:50:07 4654

原创性能不行，尺寸来凑？马斯克的 Grok-1 究竟价值几何？

过去一年多以来，人工智能的发展开启了狂暴模式，真可谓。Mistral和Claude连发大招之后，马斯克的xAI也搞出了“大动作”！马斯克曾提出建立“第三方裁判”监督 AI 公司，并推出 xAI 项目为了打造能加速人类科技发展的人工智能，还对 OpenAI 发起起诉，指责其背离了初心，甚至表示如果 OpenAI 改名 ClosedAI 就撤诉。3月11日，马斯克宣称 xAI 将对其开发的 AI 对话机器人 Grok 进行开源！

2024-08-06 14:45:07 1019

原创千呼万唤始出来，Meta凌晨开源Llama3

Meta于北京时间4月19日凌晨开源了Llama-3，距Llama-2开源正好9个月。一起看看这次Meta到底放了什么干货。

2024-08-05 11:24:01 923

原创深度探索：LLaMa-3网络安全能力全解析

随着人工智能技术的迅速发展，大模型在处理各种复杂任务中展示出了卓越的能力。特别是在网络安全领域，大模型的应用潜力巨大，它们可以帮助自动化处理大量数据、识别潜在威胁和提供安全建议。然而，新型大模型层出不穷，要有效利用这些模型，首先必须验证它们在理解和处理网络安全相关问题上的能力。

2024-08-05 11:15:38 1439 1

原创 Compass Arena 大语言模型对战榜单新一轮更新来啦！

CompassArena自榜单首次上线以来，收到了更多用户的反馈和真实体验数据。今天，大模型对战迎来了新一轮更新，同时新增了子榜单功能，快来看看吧！

2024-08-02 10:52:56 773

原创实战解读：Llama3 安全性对抗分析

近日，腾讯朱雀实验室、科恩实验室和上海人工智能实验室司南 OpenCompass 大模型评测团队针对Llama 3 安全性做了进一步解读。

2024-08-02 10:34:47 1487

原创司南 OpenCompass 5 月榜单揭晓，全新大模型对战榜单首次登场

司南 OpenCompass 团队针对国内外主流大语言模型进行了全面评测，现已公布 2024 年 5 月大语言模型最新评测榜单！与此同时，CompassArena 大模型对战榜单也于今日首次重磅上线！

2024-07-31 14:42:12 1745 1

原创 GPT-4o的数学又双叕进步了？来MathBench看看新版GPT-4o到底强在哪

数学推理和问题解决是人类智力的重要方面，几十年来也一直是人工智能（AI）领域研究的重点以及大模型的兵家必争之地。机器对数学问题的理解、解释和解决能力不仅是其认知能力的标杆，还在其各个领域的应用中发挥着关键作用。因为模型的数学能力强，往往代表了模型具有更强的推理和知识整合能力，也能更好的完成其他任务。随着现代大型语言模型（LLMs）如OpenAI的ChatGPT和GPT-4的出现，LLMs展示了生成类人对话和解决复杂数学难题的非凡能力。

2024-07-31 14:33:34 1401

原创 MedBench迭代升级，找出最合格的“医学生”

MedBench医疗大模型评测平台进行了全面升级，丰富了评测参评方式，新增API评测，同时优化了开放域问答（Open-domain question answer）的评估指标，通过医学专家标注答题点，进一步确保了评测结果的公平性和专业性。此外，平台在评测数据集、评测方法以及系统功能方面也进行了相应的升级，致力于为医疗大模型评测构建更健全的社区环境，并提供更为丰富、真实的实践场景。

2024-07-30 13:24:35 1416

原创 Flames：大语言模型价值对齐评测基准

Flames是由上海人工智能实验室和复旦大学联合构建的大语言模型价值对齐评测基准，包含一个综合性评测框架、高对抗性中文数据集和自动评分模型，囊括Fairness（公平）, Safety(安全)，Morality(道德)，Data Protection（数据保护），以及Legality（合法）五个大维度，Flames名字也来源于此。

2024-07-30 13:17:43 1630

原创可扩展性长文本评测集——Ada-LEval 详细解读

对于一篇长文本 (例如小说)，我们从中截取部分分为 N 段，打乱次序提供给 LLM (截取部分的前后临近段落也会作为上下文提供)，并要求 LLM 输出段落的正确顺序。因此，在测试过程中，我们仅使用生成式的测试，而非基于 PPL。我们发现，大部分的长文本模型在这一测试集上的表现都不尽如意。开源了评测数据与代码，并提供了评测 InternLM2 与 GPT-4 的样例，以便于社区评测其他的大语言模型。随着大模型能够处理的上下文信息越来越多，达到百万级别的词汇量，人们对于模型长文本能力的研究兴趣也随之增长。

2024-07-29 11:53:47 1215

原创 T-Eval：大模型智能体能力评测基准解读 | ACL 2024

AI Agent（智能体）作为大模型的重要应用模式，能够通过使用外部工具来执行复杂任务，完成多步骤的工作流程。为了更全面地评估模型的工具使用能力，司南及合作伙伴团队推出了T-Eval评测基准，相关成果论文已被ACL 2024主会录用。

2024-07-29 11:21:25 3176

空空如也

空空如也