大模型评测体系
文章平均质量分 87
司南评测
公众号:司南评测体系,致力构建透明、准确的大模型开源评测体系
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
GPT-5卫冕榜首!工具调用能力成AI新战场丨大语言模型10月最新榜单揭晓
大模型技术在全球范围内持续演进,各大科技公司纷纷推出新一代模型,重点强化智能体方向的核心能力,包括编程、工具使用和深度信息检索等,无一不在提升实际问题解决能力。伴随着技术升级,越来越多能够解决实际问题的智能体正在涌现——它们能够自主规划任务、协同执行指令,在科研、编程、商业分析等领域展现出切实价值。与此同时,中国大模型在全球持续引人注目,在海外社区引发广泛讨论,展示出中国在大模型研发与应用方面的强劲实力。司南持续关注大模型的发展动态,近期针对国内外主流大语言模型进行了全面评测,现公布!原创 2025-11-11 10:49:43 · 511 阅读 · 0 评论 -
司南首期多模态模型闭源榜单发布!48个模型同台竞技,谁将脱颖而出?
凭借对文本、图像、语音等多模态数据的融合处理能力,多模态大模型实现了更为丰富、全面的理解与生成,在复杂场景中表现得更接近人类水平,已然成为人工智能领域的重要发展方向。然而,随着评测基准的激增,数据污染问题日益凸显,导致模型在评测中“记住”答案,从而高估了模型性能,降低了评测基准的可信度。为解决这一问题,司南推出了多模态模型,评测数据,包含多项细分评估维度,确保测试数据的新颖性和客观性,从而真实评估多模态模型的综合能力,为模型评估提供更可靠、更全面的基准。原创 2025-03-12 14:44:46 · 1165 阅读 · 0 评论 -
司南发布“以人为本”的大模型评测体系,认知科学驱动,更贴近人类需求
2月22日,2025GDC“浦江AI生态论坛”在上海徐汇举行。论坛现场,大模型开放评测平台司南正式发布“以人为本”(Human-Centric Eval)的大模型评测体系,系统评估大模型能力对人类社会的实际价值,为人工智能应用更贴近人类需求,提供可量化的人本评估标注司南团队突破性引入认知科学理论,秉持“以人为本”的核心精神,提出“解决问题能力、信息质量、交互体验”三维度的大模型主观评测体系。原创 2025-02-25 11:08:05 · 950 阅读 · 0 评论 -
检验大模型数学推理能力,司南发布全新评测指标与评测集
与此同时,当前模型的性能潜力和实际表现之间存在显著的差距,一些模型在单次任务上表现出高准确率,但在保持一致高准确率方面却不稳定,远未达到最佳性能,如何在保持接近最佳性能的同时确保输出的稳定性,或将成为强推理领域的重点突破方向。近日,大模型开放评测体系司南(OpenCompass)推出评测指标G-Pass@k及数学评测集LiveMathBench,旨在客观地检验大模型的数学推理能力,为行业提供更加精准可信的评测结果,助力强推理模型性能提升,加速大模型在高难度推理场景中的落地应用。次生成正确答案的概率。原创 2024-12-31 14:57:12 · 1761 阅读 · 0 评论 -
司南OpenCompass评测工具正式加入PyTorch Ecosystem
通过与 PyTorch 社区的深度融合,OpenCompass 将进一步提升评测工具的性能与影响力,推动大模型评测技术的发展。司南 OpenCompass 大模型开源评测体系专注于评测工具、评测基准、评测榜单以及大模型能力分析与提升等方向的工作,致力于构建覆盖大模型评测全链条的研发生态。日前,司南 OpenCompass 评测工具正式加入 PyTorch Ecosystem 体系,这一进展不仅彰显了司南 OpenCompass 评测工具的技术实力,还为开发者与研究人员带来了更加便捷的模型评测体验。原创 2024-12-31 14:40:38 · 765 阅读 · 0 评论 -
两行代码开启大模型评测之旅!OpenCompass 工具版本全面更新,快来试试看
作为 OpenCompass 司南大模型评测体系三大核心模块之一的评测工具链体系 CompassKit 近日迎来,更新内容主要集中在 OpenCompass 大语言模型评测工具,本文介绍了新功能的使用方法。原创 2024-09-03 16:57:16 · 2064 阅读 · 0 评论 -
Compass Arena 上新啦!新增双多模态模型匿名对战
2024 年 5 月,上海人工智能实验室司南 OpenCompass 团队 与魔搭 ModelScope 联合推出了大模型评测平台——Compass Arena(大模型竞技场),为国内的大语言模型领域引入了一种全新的竞技模式。今天,Compass Arena 迎来重磅更新,新增了多模态大模型竞技版块——Compass Multi-Modal Arena。在这个全新的竞技场,用户可以轻松体验和比较多款主流多模态大模型的效果,找到适合自己的。原创 2024-08-09 17:24:03 · 1577 阅读 · 0 评论 -
多模态模型评测神器 | OpenCompass MMBench 了解一下!
MMBench 是 OpenCompass 研究团队自建的视觉语言模型评测数据集,可实现从感知到认知能力逐级细分评估。研究团队从互联网公开信息与权威基准数据集采集约 3000 道单项选择题 ,覆盖目标检测、文字识别、动作识别、图像理解、关系推理等 20 个细粒度评估维度。原创 2024-08-06 14:50:07 · 6909 阅读 · 0 评论 -
千呼万唤始出来,Meta凌晨开源Llama3
Meta于北京时间4月19日凌晨开源了Llama-3,距Llama-2开源正好9个月。一起看看这次Meta到底放了什么干货。原创 2024-08-05 11:24:01 · 1036 阅读 · 0 评论 -
Compass Arena 大语言模型对战榜单新一轮更新来啦!
CompassArena自榜单首次上线以来,收到了更多用户的反馈和真实体验数据。今天,大模型对战迎来了新一轮更新,同时新增了子榜单功能,快来看看吧!原创 2024-08-02 10:52:56 · 1112 阅读 · 0 评论 -
司南 OpenCompass 5 月榜单揭晓,全新大模型对战榜单首次登场
司南 OpenCompass 团队针对国内外主流大语言模型进行了全面评测,现已公布 2024 年 5 月大语言模型最新评测榜单!与此同时,CompassArena 大模型对战榜单 也于今日首次重磅上线!原创 2024-07-31 14:42:12 · 2239 阅读 · 0 评论 -
MedBench迭代升级,找出最合格的“医学生”
MedBench医疗大模型评测平台进行了全面升级,丰富了评测参评方式,新增API评测,同时优化了开放域问答(Open-domain question answer)的评估指标,通过医学专家标注答题点,进一步确保了评测结果的公平性和专业性。此外,平台在评测数据集、评测方法以及系统功能方面也进行了相应的升级,致力于为医疗大模型评测构建更健全的社区环境,并提供更为丰富、真实的实践场景。原创 2024-07-30 13:24:35 · 1846 阅读 · 0 评论 -
Flames:大语言模型价值对齐评测基准
Flames是由上海人工智能实验室和复旦大学联合构建的大语言模型价值对齐评测基准,包含一个综合性评测框架、高对抗性中文数据集和自动评分模型,囊括Fairness(公平), Safety(安全),Morality(道德),Data Protection(数据保护),以及Legality(合法)五个大维度,Flames名字也来源于此。原创 2024-07-30 13:17:43 · 2114 阅读 · 0 评论 -
可扩展性长文本评测集——Ada-LEval 详细解读
对于一篇长文本 (例如小说),我们从中截取部分分为 N 段,打乱次序提供给 LLM (截取部分的前后临近段落也会作为上下文提供),并要求 LLM 输出段落的正确顺序。因此,在测试过程中,我们仅使用生成式的测试,而非基于 PPL。我们发现,大部分的长文本模型在这一测试集上的表现都不尽如意。开源了评测数据与代码,并提供了评测 InternLM2 与 GPT-4 的样例,以便于社区评测其他的大语言模型。随着大模型能够处理的上下文信息越来越多,达到百万级别的词汇量,人们对于模型长文本能力的研究兴趣也随之增长。原创 2024-07-29 11:53:47 · 1387 阅读 · 0 评论 -
T-Eval:大模型智能体能力评测基准解读 | ACL 2024
AI Agent(智能体)作为大模型的重要应用模式,能够通过使用外部工具来执行复杂任务,完成多步骤的工作流程。为了更全面地评估模型的工具使用能力,司南及合作伙伴团队推出了T-Eval评测基准,相关成果论文已被ACL 2024主会录用。原创 2024-07-29 11:21:25 · 4105 阅读 · 0 评论 -
一文读懂司南大模型评测体系 OpenCompass
在人工智能领域,大语言模型已经成为了技术创新的重要驱动力。为了更好地评估和提升大模型的性能,上海人工智能实验室研发推出了 OpenCompass 司南大模型开源评测体系。该体系是面向大语言模型、多模态大模型等各类模型的一站式评测平台。原创 2024-07-26 15:27:08 · 2442 阅读 · 0 评论
分享