模型评测
文章平均质量分 91
司南评测
公众号:司南评测体系,致力构建透明、准确的大模型开源评测体系
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
RISEBench:四大维度揭示视觉编辑模型强推理生成能力
总结而言,从不同难度层级的测试结果可以看出,Qwen-VLo 在 RISEBench 的因果、空间、时间、逻辑四大维度中,在基础的(Easy)任务里基本可用,进入需要多步推理或复杂条件的中、高难度场景时,其理解、生成和推理能力尚存在明显短板。这也提示未来视觉编辑 AI 不仅要 “会改图”,更需要在可解释、可控的推理链条上持续发力,才能真正跨越智能化的门槛。原创 2025-07-18 14:57:32 · 958 阅读 · 0 评论 -
大模型科学认知评测基准SFE发布:16款主流MLLMs表现揭晓!
本文转载自机器之心当前,驱动科学研究的人工智能(AI for Science,AI4S)在单点取得了可观的进展,实现了工具层面的革新,然而要成为「革命的工具」,需要采用「通专融合 AGI」方式。大模型的突破性能力逐步改变科学研究的模式,而大模型在科学领域的深度应用亟需科学的评测支撑。现有科学评测面临着两大痛点:现有测试多聚焦知识记忆,而真实科研需要从原始科学数据感知到复杂推理的全链条能力;天文、地球、生命和材料等领域存在大量未开发的多模态数据分析需求。原创 2025-07-10 19:09:33 · 999 阅读 · 0 评论 -
OmniAlign-V:多模态大模型人类偏好对齐新突破
多模态大模型(MLLMs)在视觉、语言理解等领域展现出强大的能力,但如何让这些模型更好地对齐人类偏好,生成更符合人类认知习惯的内容,仍然是一个核心挑战。近日,上海人工智能实验室联合团队发布了最新研究成果 OmniAlign-V,针对这一问题提出了新的数据集和评测基准。探索了语言数据和多模态数据对多模态大语言模型的语言能力以及多模态客观/主观指标的影响,发现:高质量语言数据的加入并不能增强多模态模型的对齐能力,还会降低通用视觉问答(General VQA )任务上的性能。原创 2025-03-24 16:46:29 · 1080 阅读 · 0 评论 -
司南MedBench3.0全面上新,4200次评测揭示医疗大模型能力长项与核心短板
为将医疗大模型与主流领先模型横向对比,获取更直观指标参考,MedBench团队推出了“自建榜单”,评测GPT、Claude、Llama等国际主流模型在医疗场景下的能力水平,为医疗大模型参评机构提供对比依据和能力参照,加固医疗模型评测结果可信度。依托MedBench,实验室与中国软件评测中心正式启动医疗大模型基础能力评测服务,针对医疗大模型产品软件质量及性能开展评测,评测内容涵盖功能完备性、性能效率、通用基础能力、安全性、医疗伦理、知识掌握、临床实践等多方面,并接受定向应用场景评测。医疗大模型能力几何?原创 2025-03-21 11:22:58 · 1280 阅读 · 0 评论 -
OpenCompass 支持魔搭 P-MMEval 数据集:面向大模型的多语言平行评测集
此外,P-MMEval 确保所有挑选的数据集中的多语言覆盖一致,并提供跨多种语言的并行样本,最高支持来自 8 个不同语族的 10 种语言(英、中、阿、西、日、韩、泰、法、葡、越)。对各种 LLM 的多语言能力进行了全面分析,不仅分析了 P-MMEval 中每个数据集在区分模型性能方面的有效性,并探索了模型性能受到推理提示、模型类型、模型尺寸、语言种类和任务类型的影响。它整合了基础自然语言处理任务和能力特定的评估任务,确保每个任务在语言覆盖上的一致性,并提供跨语言的平行样本,以便进行一致的比较。原创 2024-12-25 10:50:46 · 1346 阅读 · 0 评论 -
速看!2024 ACL 评测基准专场直播回顾&干货资料来了
评测集社区 CompssHub 作为司南 OpenCompass 大模型评测体系的重要组成部分,致力于简化并加快研究人员和行业人士搜索和使用评测集的过程。评测集社区 CompssHub 目前已收录了学科、推理、知识、代码等 12 个方向的评测集,欢迎大家探索。原创 2024-12-24 11:27:18 · 1244 阅读 · 0 评论 -
NeurIPS 2024 | 真实世界复杂任务,全新基准 GTA 助力大模型工具调用能力评测
相较而言,GTA 的问题既是步骤隐含的,也是工具隐含的,并且是基于现实世界场景的、对人类有帮助的任务。真实用户查询:包含 229 个人类撰写的问题,问题具有简单的真实世界目标,但解决步骤是隐含的,工具也是隐含的,要求模型通过推理来选择合适的工具并规划操作步骤。GTA 通过设计真实世界场景的用户问题、真实部署的工具和多模态输入,建立了一个全面、细粒度的评估框架,能够有效评估大语言模型在复杂真实场景下的工具使用能力。针对工具调用设计了细粒度的评测指标,揭示工具增强的语言模型在真实世界场景中的推理和规划能力。原创 2024-12-24 11:16:29 · 1220 阅读 · 0 评论 -
突破短视频局限!MMBench 构建中长视频开放问答评测基准,全面评估多模态大模型视频理解能力
本文经量子位(公众号 ID: QbitAI)授权转载,作者:新宇GPT-4o 四月发布会掀起了视频理解的热潮,而开源领军者 Qwen2 也对视频毫不手软,在各个视频评测基准上狠狠秀了一把肌肉。,视频长度或视频镜头数不足,难以考察到模型的长时序理解能力;对模型的考察局限在部分较为简单的任务,;现有的基准仍可以仅凭单帧图像以获取较高的分数,说明;,打分和人类偏好有较大的偏差且并不准确,容易高估模型性能。针对这些问题,有没有对应的基准能够较好解决这些问题呢?原创 2024-12-23 15:19:40 · 1309 阅读 · 0 评论 -
顶会评测集解读-AlignBench: 大语言模型中文对齐基准
因此,该团队使用了三种相对先进的支持中文的 LLMs,包括 GPT-3.5-turbo、ChatGLM APIs 和 Sparkdesk,作为该团队构建流程中的难度过滤器。该团队设计了一个可持续的、包含人工参与的数据策划流程,并改进了LLM作为评判者(LLM-as-Judge)的方法,使AlignBench能够对LLMs的中文对齐进行高质量的自动评估。此外,基于规则的评分在解释方面优于一般评分,该结果证明了评分规则能够提供明确的基于参考的标准,从而有助于清晰地比较参考答案和模型答案。原创 2024-12-23 15:16:04 · 1622 阅读 · 0 评论 -
两行代码开启大模型评测之旅!OpenCompass 工具版本全面更新,快来试试看
作为 OpenCompass 司南大模型评测体系三大核心模块之一的评测工具链体系 CompassKit 近日迎来,更新内容主要集中在 OpenCompass 大语言模型评测工具,本文介绍了新功能的使用方法。原创 2024-09-03 16:57:16 · 2064 阅读 · 0 评论 -
Compass Arena 上新啦!新增双多模态模型匿名对战
2024 年 5 月,上海人工智能实验室司南 OpenCompass 团队 与魔搭 ModelScope 联合推出了大模型评测平台——Compass Arena(大模型竞技场),为国内的大语言模型领域引入了一种全新的竞技模式。今天,Compass Arena 迎来重磅更新,新增了多模态大模型竞技版块——Compass Multi-Modal Arena。在这个全新的竞技场,用户可以轻松体验和比较多款主流多模态大模型的效果,找到适合自己的。原创 2024-08-09 17:24:03 · 1577 阅读 · 0 评论 -
多模态模型评测神器 | OpenCompass MMBench 了解一下!
MMBench 是 OpenCompass 研究团队自建的视觉语言模型评测数据集,可实现从感知到认知能力逐级细分评估。研究团队从互联网公开信息与权威基准数据集采集约 3000 道单项选择题 ,覆盖目标检测、文字识别、动作识别、图像理解、关系推理等 20 个细粒度评估维度。原创 2024-08-06 14:50:07 · 6909 阅读 · 0 评论 -
实战解读:Llama3 安全性对抗分析
近日,腾讯朱雀实验室、科恩实验室和上海人工智能实验室 司南 OpenCompass 大模型评测团队 针对Llama 3 安全性做了进一步解读。原创 2024-08-02 10:34:47 · 1788 阅读 · 0 评论
分享