- 博客(56)
- 收藏
- 关注
原创 每日 AI 评测速递来啦(11.21)
一个大规模、系统化评测大语言模型“撒谎”行为的基准测试平台,包含超 7 万条来自多模型、多数据集的诚实与撒谎示例,覆盖不同类型的撒谎动机和目标信念。一个面向地理空间基础模型(GeoFMs)的综合评估基准,涵盖分类、分割、回归、目标检测和实例分割等任务,使用 19 个许可宽松的数据集进行测试。首个用于评估具身智能体间接越狱能力的基准,包含 1,632 条良性指令和 3,957 条恶意指令,覆盖了广泛的任务复杂度与攻击情景。司南·Daily Benchmark 专区今日上新!
2025-11-21 19:04:36
139
原创 每日 AI 评测速递来啦(11.20)
一个以能力为核心构建的多模态推理评测套件,从多个主流基准(如 BLINK、TIR-Bench、MathVerse、MathVista 等)重新采样并整合数据,并基于六大能力维度对实例进行标注,同时补充视觉导航等交互场景。它为模型提供统一、可比的能力评估视角,可用于系统分析多模态推理模型在不同任务中的能力调度与协同表现。一个用于系统评估视频模型推理能力的综合基准。一个面向学术场景动态钓鱼攻击的统一框架与基准套件,用于系统性评估 MLLM 的防御能力。司南·Daily Benchmark 专区今日上新!
2025-11-20 18:55:32
146
原创 每日 AI 评测速递来啦(11.19)
首个专门评估大型视觉-语言模型(LVLM)在面对误导性视觉输入时鲁棒性的综合基准。MVI-Bench 基于视觉原语,将误导性输入分为视觉概念、视觉属性和视觉关系三个层级,涵盖六类典型场景,并包含 1,248 个专家标注的视觉问答实例。司南·Daily Benchmark 专区今日上新!
2025-11-19 17:02:18
107
原创 每日 AI 评测速递来啦(11.18)
一个面向法律与金融领域的开放性、高难度专业推理基准,包含 1,100 个专家撰写的任务和 19,356 条评分标准,由 182 名资深专业人士贡献。一个综合性基准,旨在探索和评估 LMMs 在跨视角地理定位和位姿估计中的能力,包含 10,859 对全景-卫星图像,覆盖 49 个国家的 128 个城市,并配备 755,976 对问答数据。用于评估面向服务的助手在长期用户交互中的个性化能力,创新性地设置了需求重述、方案推荐和多轮对话三大任务,全面评估系统对用户偏好和主观需求的建模能力。数据集来源于 70 篇。
2025-11-18 18:59:56
381
原创 每日 AI 评测速递来啦(11.17)
通过对 28 个专有与开源 MLLM 的测试,VP-Bench 分析了影响视觉提示理解的关键因素,如属性变化、问题排列和模型规模,为研究 MLLMs 如何理解和解决基于视觉定位的指代问题提供了新的参考框架。通过在专家混合模型与稠密模型上进行微调实验,结果显示微调后的模型在超过 75% 的任务上显著优于基础模型。面向多模态大模型的内容安全评测套件,涵盖四种模态、九类风险的大规模双语数据集,并提出用于评估交叉风险的 MCRS 指标以及基于多模型评审的 FairScore 框架。
2025-11-17 17:59:48
263
原创 AI评测趋势一站速览,司南Daily Benchmark专区上线!
作为司南评测体系的重要组成部分,司南评测集社区 CompassHub 致力于打造创新性的基准测试资源导航社区,提供丰富、及时、专业的评测集信息,让研究者与开发者轻松查找、分享与使用各类基准,共同探索 AI 技术的真实能力边界。为了让大家第一时间掌握 AI 评测最新趋势,司南评测集社区全新推出 「Daily Benchmark」专区,带你直观了解最新 AI 评测论文,洞悉模型能力演进趋势。无论你是想追踪全球 AI 评测趋势的研究者,还是希望验证模型真实能力的开发者,司南评测集社区都将成为你的得力助手。
2025-11-13 18:59:48
330
原创 各有所长,国内外模型安全评估丨多个大模型安全榜单揭晓
覆盖 96 个国内外主流大模型,涉及文本和多模态数据,包括 48 个海外模型(如 Claude-4、GPT-4o 等)、48 个国内模型(如 Qwen3、InternLM等),其中开源模型 75 个,闭源模型 21 个。大模型的在中文环境中的多维度合规性是其在我国广泛应用的关键基础,也是此次评测的重要维度。深层洞察:排名靠前的模型在各评测维度都有比较均衡的安全分数,而排名靠后的模型在社会经济风险维度的安全性较高,而对毒性输入的抵御能力较弱,这说明这些大模型在训练过程中对毒性输入的重视程度需要提高。
2025-11-13 11:28:09
942
原创 GPT-5卫冕榜首!工具调用能力成AI新战场丨大语言模型10月最新榜单揭晓
大模型技术在全球范围内持续演进,各大科技公司纷纷推出新一代模型,重点强化智能体方向的核心能力,包括编程、工具使用和深度信息检索等,无一不在提升实际问题解决能力。伴随着技术升级,越来越多能够解决实际问题的智能体正在涌现——它们能够自主规划任务、协同执行指令,在科研、编程、商业分析等领域展现出切实价值。与此同时,中国大模型在全球持续引人注目,在海外社区引发广泛讨论,展示出中国在大模型研发与应用方面的强劲实力。司南持续关注大模型的发展动态,近期针对国内外主流大语言模型进行了全面评测,现公布!
2025-11-11 10:49:43
414
原创 Seed持续领跑,国产开源模型异军突起丨多模态模型8月最新榜单揭晓
在多模态推理方面,Gemini-5-20250807 在评测中取得了最佳的成绩,且较第 2 名(Gemini-2.5-Pro,也即上一期的第 1 名)有较大的领先优势,展现出多模态大模型在推理方面快速迭代成效显著。开源模型正迎头赶上,不断拉近与闭源模型领头羊的距离。在多模态创作等领域,GPT-5-20250807 等海外模型仍具有一定优势,同时整体的性能与榜单头名的差距也从上期的 6 分拉近到了本期的不到 2 分,说明海外模型在部分能力上仍具有不可替代的优势,整体性能迭代势头不可小觑。
2025-09-12 19:12:10
1039
原创 GPT-5-2025-08-07登顶!工具调用能力呈多元化竞争态势丨大语言模型7月最新榜单揭晓
GPT-5-2025-08-07登顶!国产开源模型比肩海外闭源模型丨大语言模型7月最新榜单揭晓步入2025年下半年,大模型的竞争焦点不再仅仅是‘比参数、卷榜单’,而是转向通用能力与专业能力的深度融合,更加注重实用价值。技术演进也不再局限于语言理解与生成的单一维度,而是迈向知识注入与技能融合的深层进化。越来越多的大模型被赋予代码编写、数学推理、科研理解等多学科能力,既能胜任日常对话任务,又能胜任复杂专业任务。AI不再只是文本生成器或聊天机器人,而正逐步演化为具备跨领域知识与多任务协作能力的“AI专家”。
2025-08-14 11:45:26
1072
原创 司南评测体系全新升级,“五位一体”评估全链路关键能力
面对通用人工智能技术持续突破与应用场景日益多元的趋势,升级后的司南评测体系构建了涵盖底层算力、通用模型、具身智能、安全可信与垂直行业在内的完整评测链条,致力于为行业提供统一、权威的技术评价标准,推动 AI 能力与实际需求紧密结合,助力通用人工智能在各领域实现安全、可信和高效的落地应用。在通用人工智能时代加速到来的背景下,专业、公正、开放的评测体系是确保人工智能安全、高效发展的关键环节,它不仅是技术发展的“试金石”,也是连接技术与应用、促进跨领域合作的重要桥梁。AI 模型的持续演进离不开底层计算力的支撑。
2025-07-21 17:20:20
933
原创 RISEBench:四大维度揭示视觉编辑模型强推理生成能力
总结而言,从不同难度层级的测试结果可以看出,Qwen-VLo 在 RISEBench 的因果、空间、时间、逻辑四大维度中,在基础的(Easy)任务里基本可用,进入需要多步推理或复杂条件的中、高难度场景时,其理解、生成和推理能力尚存在明显短板。这也提示未来视觉编辑 AI 不仅要 “会改图”,更需要在可解释、可控的推理链条上持续发力,才能真正跨越智能化的门槛。
2025-07-18 14:57:32
934
原创 大模型科学认知评测基准SFE发布:16款主流MLLMs表现揭晓!
本文转载自机器之心当前,驱动科学研究的人工智能(AI for Science,AI4S)在单点取得了可观的进展,实现了工具层面的革新,然而要成为「革命的工具」,需要采用「通专融合 AGI」方式。大模型的突破性能力逐步改变科学研究的模式,而大模型在科学领域的深度应用亟需科学的评测支撑。现有科学评测面临着两大痛点:现有测试多聚焦知识记忆,而真实科研需要从原始科学数据感知到复杂推理的全链条能力;天文、地球、生命和材料等领域存在大量未开发的多模态数据分析需求。
2025-07-10 19:09:33
942
原创 6月前沿评测集一网打尽!多模态、智能体、代码领域全覆盖
MVPBench 专注于视觉物理推理中的视觉链式思维(CoT)能力评估。它特别关注模型能否像人类一样,依据图片一步步进行逻辑推理,而不是依赖文字提示直接得出结论。
2025-07-04 18:54:46
1153
原创 Seed1.5-VL登顶,国产闭源模型弯道超车丨多模态模型5月最新榜单揭晓
随着图像、文本、语音、视频等多模态信息融合能力的持续增强,多模态大模型在感知理解、逻辑推理和内容生成等任务中的综合表现不断提升,正在展现出愈发接近人类的智能水平。多模态能力也正在从底层的感知理解,迈向具备认知、推理、决策能力的高阶智能,成为通向通用人工智能的重要路径。与此同时,随着模型基础能力的持续增强,多模态模型在各行各业的应用日益深入。从最初“能看懂、会表达”的基础阶段,逐步发展为“能思考、会协作、懂语境”的高级形态,推动智能新时代的加速到来。司南持续关注大模型的发展动态,,近期针对。
2025-06-06 19:05:31
1140
原创 司南评测集社区 5 月上新一览
MedArabiQ 是一个用于评估阿拉伯语医学任务的基准测试,包含七个任务,涵盖多种问题格式:多项选择题、填空题(有选项和无选项)、患者-医生问答对。
2025-06-05 10:45:10
1160
原创 选翻译模型不再靠感觉!首个AI翻译实战榜来了,通用、行业、文化全面测评
随着AI大模型加速落地,翻译模型也迈入了“拼实力、看实用”的新阶段。近日,由共建的。该榜单基于,围绕三大核心维度,精心设计评估体系,并构建高质量、多语种、多场景的评测数据集,全方位、多维度地量化翻译模型在不同行业、不同语言环境下的综合能力。与传统的翻译测评相比,TransBench增加了幻觉率、文化禁忌词、敬语规范等指标,首次面向工业界针对细分行业领域构建评测数据和评测方法。这些指标均来自真实场景的使用反馈,以此来测评大模型是否符合大规模应用的标准。
2025-05-30 18:16:22
1662
原创 谁才是最懂你的多模态大模型?主观评测榜单揭晓,“场景中”见真章!
具备跨模态理解能力的多模态大模型能实现更为丰富、全面的理解与生成,在复杂场景中表现得更接近人类水平,已然成为人工智能领域的重要发展方向。从图文理解、视觉问答到图像推理,模型们看似“万事通”,但真正打动人心、贴近用户需求的模型,究竟该如何评判?国内外主流的闭源模型(如GPT-4.1-20250414、Gemini-2.5-flash等)和开源模型(如InternVL3系列、Qwen2.5-VL系列等),围绕着等多个维度进行了全面评测。相比客观评测,这份榜单采用的,能够更好反映模型在“场景中”的综合能力。
2025-05-22 11:22:51
1576
原创 Gemini-2.5-Pro登顶,推理模型强势领跑丨大语言模型4月最新榜单揭晓
大模型技术在全球范围内持续加速演进,各大科技公司竞相推出新一代模型,不断突破语言理解、逻辑推理、代码生成等关键能力的上限,推动AI从单一任务助手迈向多领域协同的智能体。与此同时,以“推理能力”为核心的新模型大量涌现,成为近期技术演进的焦点。从数学计算、逻辑推理到科学问答与代码生成,推理模型不断刷新AI在复杂任务中的表现边界,呈现出从“会答”向“会推理”的跃升趋势。在这一过程中,技术创新与实际应用加速融合,正在重塑人工智能的能力边界与产业格局。
2025-05-14 16:39:45
1058
原创 司南评测集社区 4 月上新一览
WorldScore 是用于世界生成的统一基准测试,包括一个精选数据集,其中包含 3000 个测试示例,包含静态和动态、室内和室外、逼真和风格化复杂的世界场景,并通过可控性、质量和动态性这三个关键方面评估生成的世界。
2025-04-30 14:10:26
795
原创 司南评测集社区 3 月上新一览!
MiLiC-Eval 是针对中国少数民族语言的 NLP 评估套件,涵盖藏语(bo)、维吾尔语(ug)、哈萨克语(kk,哈萨克阿拉伯语)和蒙古语(mn,传统蒙古语)。
2025-04-02 17:17:01
1083
原创 OmniAlign-V:多模态大模型人类偏好对齐新突破
多模态大模型(MLLMs)在视觉、语言理解等领域展现出强大的能力,但如何让这些模型更好地对齐人类偏好,生成更符合人类认知习惯的内容,仍然是一个核心挑战。近日,上海人工智能实验室联合团队发布了最新研究成果 OmniAlign-V,针对这一问题提出了新的数据集和评测基准。探索了语言数据和多模态数据对多模态大语言模型的语言能力以及多模态客观/主观指标的影响,发现:高质量语言数据的加入并不能增强多模态模型的对齐能力,还会降低通用视觉问答(General VQA )任务上的性能。
2025-03-24 16:46:29
1060
原创 土木工程领域大模型哪家强?六大维度全面评测!
目前已发布的榜单包含土木工程榜单、网络安全榜单、金融榜单、价值对齐榜单、法律榜单、医疗榜单。,围绕土木工程教育与工程实践的核心能力,设置了六大评测维度,全面评估大模型在土木工程领域的知识理解、推理能力及应用能力。随着大语言模型在土木工程领域应用的不断拓展,其专业知识的准确性、工程推理能力及实际应用价值亟需科学、客观的评测。测试大模型在测绘案例分析、测绘管理与法律法规、测绘综合应用等方面的能力,评估其在测绘与地理信息领域的应用潜力。联系邮箱 opencompass@pjlab.org.cn。
2025-03-21 17:00:00
736
原创 司南MedBench3.0全面上新,4200次评测揭示医疗大模型能力长项与核心短板
为将医疗大模型与主流领先模型横向对比,获取更直观指标参考,MedBench团队推出了“自建榜单”,评测GPT、Claude、Llama等国际主流模型在医疗场景下的能力水平,为医疗大模型参评机构提供对比依据和能力参照,加固医疗模型评测结果可信度。依托MedBench,实验室与中国软件评测中心正式启动医疗大模型基础能力评测服务,针对医疗大模型产品软件质量及性能开展评测,评测内容涵盖功能完备性、性能效率、通用基础能力、安全性、医疗伦理、知识掌握、临床实践等多方面,并接受定向应用场景评测。医疗大模型能力几何?
2025-03-21 11:22:58
1234
原创 司南评测集社区 2 月上新一览!
KITAB-Bench是一个全面多领域阿拉伯文 OCR 和文档理解基准,包含 36 个子领域,超过 8,809 个样本,经过精心挑选,以严格评估阿拉伯文 OCR 和文档分析所需的基本技能,研究表明现代视觉-语言模型(如 GPT-4、Gemini 和 Qwen)在字符错误率(CER)方面比传统 OCR 方法(如 EasyOCR、PaddleOCR 和 Surya)平均高出 60%, 领先模型 Gemini-2.0-Flash 也仅达到 65% 的准确率,体现了在准确识别阿拉伯语文本方面的挑战。
2025-03-12 20:25:45
1146
原创 司南首期多模态模型闭源榜单发布!48个模型同台竞技,谁将脱颖而出?
凭借对文本、图像、语音等多模态数据的融合处理能力,多模态大模型实现了更为丰富、全面的理解与生成,在复杂场景中表现得更接近人类水平,已然成为人工智能领域的重要发展方向。然而,随着评测基准的激增,数据污染问题日益凸显,导致模型在评测中“记住”答案,从而高估了模型性能,降低了评测基准的可信度。为解决这一问题,司南推出了多模态模型,评测数据,包含多项细分评估维度,确保测试数据的新颖性和客观性,从而真实评估多模态模型的综合能力,为模型评估提供更可靠、更全面的基准。
2025-03-12 14:44:46
1096
原创 视频生成模型权威评测基准VBench上线司南评测集社区
VBench 不仅包含了 16 个分层和解耦的评测维度,确保了评估的全面性和细致度,还通过贴近人类感知的评测方法,提高了评估结果的真实性和可靠性。最新发布的 VBench++ 支持更广泛的视频生成任务,包括文本生成视频和图像生成视频,并配有一套自适应的图像套件,以便在不同的设置下进行公平评估。,榜单内容多次被知名视频模型厂商、头部科技媒体引用,能否在 VBench 榜单上名列前茅,已成为衡量视频生成模型性能的重要参考标准,深刻影响着行业的技术发展方向和产品研发策略。VBench 榜单目前已经成为。
2025-02-27 14:23:51
1725
原创 司南发布“以人为本”的大模型评测体系,认知科学驱动,更贴近人类需求
2月22日,2025GDC“浦江AI生态论坛”在上海徐汇举行。论坛现场,大模型开放评测平台司南正式发布“以人为本”(Human-Centric Eval)的大模型评测体系,系统评估大模型能力对人类社会的实际价值,为人工智能应用更贴近人类需求,提供可量化的人本评估标注司南团队突破性引入认知科学理论,秉持“以人为本”的核心精神,提出“解决问题能力、信息质量、交互体验”三维度的大模型主观评测体系。
2025-02-25 11:08:05
910
原创 司南大语言模型最新榜单发布!DeepSeek-R1 登顶,推理模型大放异彩!
2025 年伊始,尤其是春节假期前后一段时间,大模型领域犹如一场科技盛宴,每一天都为我们带来前所未有的惊喜与震撼。其中,DeepSeek 发布的 DeepSeek-R1 模型尤为瞩目,它不仅刷新了行业标准,更以其卓越的表现和创新的技术,在全球范围内引发了广泛关注,成为这一时期当之无愧的“话题王”。司南持续关注大模型的发展动态,近期针对国内外主流大语言模型进行了全面评测,现公布!本次榜单囊括了国内外共 41 个大语言模型,包含国内外主流闭源模型和社区开源模型。
2025-02-20 20:48:37
1265
原创 检验大模型数学推理能力,司南发布全新评测指标与评测集
与此同时,当前模型的性能潜力和实际表现之间存在显著的差距,一些模型在单次任务上表现出高准确率,但在保持一致高准确率方面却不稳定,远未达到最佳性能,如何在保持接近最佳性能的同时确保输出的稳定性,或将成为强推理领域的重点突破方向。近日,大模型开放评测体系司南(OpenCompass)推出评测指标G-Pass@k及数学评测集LiveMathBench,旨在客观地检验大模型的数学推理能力,为行业提供更加精准可信的评测结果,助力强推理模型性能提升,加速大模型在高难度推理场景中的落地应用。次生成正确答案的概率。
2024-12-31 14:57:12
1691
原创 司南OpenCompass评测工具正式加入PyTorch Ecosystem
通过与 PyTorch 社区的深度融合,OpenCompass 将进一步提升评测工具的性能与影响力,推动大模型评测技术的发展。司南 OpenCompass 大模型开源评测体系专注于评测工具、评测基准、评测榜单以及大模型能力分析与提升等方向的工作,致力于构建覆盖大模型评测全链条的研发生态。日前,司南 OpenCompass 评测工具正式加入 PyTorch Ecosystem 体系,这一进展不仅彰显了司南 OpenCompass 评测工具的技术实力,还为开发者与研究人员带来了更加便捷的模型评测体验。
2024-12-31 14:40:38
742
原创 CompassArena新升级:Judge Copilot提升竞技体验,新一代Bradley-Terry模型还原模型真实能力
引入搜索功能的控制变量后,具备搜索功能的模型(标记为 w/search)的排名发生了显著变化。值得注意的是,Hunyuan-Pro w/search 和 Spark-v4.0-Ultra w/search 的排名在控制搜索功能后并未发生明显变化,这表明这些模型的能力估计较为准确,受搜索功能的影响较小。相比之下,其他排名靠前的大模型,如 GLM-4-Plus、Hunyuan-Pro 和 Qwen2-72B-Instruct,则在一定程度上受到对话风格和搜索功能的影响,导致其排名发生变化。
2024-12-25 10:57:13
1658
原创 OpenCompass 支持魔搭 P-MMEval 数据集:面向大模型的多语言平行评测集
此外,P-MMEval 确保所有挑选的数据集中的多语言覆盖一致,并提供跨多种语言的并行样本,最高支持来自 8 个不同语族的 10 种语言(英、中、阿、西、日、韩、泰、法、葡、越)。对各种 LLM 的多语言能力进行了全面分析,不仅分析了 P-MMEval 中每个数据集在区分模型性能方面的有效性,并探索了模型性能受到推理提示、模型类型、模型尺寸、语言种类和任务类型的影响。它整合了基础自然语言处理任务和能力特定的评估任务,确保每个任务在语言覆盖上的一致性,并提供跨语言的平行样本,以便进行一致的比较。
2024-12-25 10:50:46
1309
原创 速看!2024 ACL 评测基准专场直播回顾&干货资料来了
评测集社区 CompssHub 作为司南 OpenCompass 大模型评测体系的重要组成部分,致力于简化并加快研究人员和行业人士搜索和使用评测集的过程。评测集社区 CompssHub 目前已收录了学科、推理、知识、代码等 12 个方向的评测集,欢迎大家探索。
2024-12-24 11:27:18
1217
原创 NeurIPS 2024 | 真实世界复杂任务,全新基准 GTA 助力大模型工具调用能力评测
相较而言,GTA 的问题既是步骤隐含的,也是工具隐含的,并且是基于现实世界场景的、对人类有帮助的任务。真实用户查询:包含 229 个人类撰写的问题,问题具有简单的真实世界目标,但解决步骤是隐含的,工具也是隐含的,要求模型通过推理来选择合适的工具并规划操作步骤。GTA 通过设计真实世界场景的用户问题、真实部署的工具和多模态输入,建立了一个全面、细粒度的评估框架,能够有效评估大语言模型在复杂真实场景下的工具使用能力。针对工具调用设计了细粒度的评测指标,揭示工具增强的语言模型在真实世界场景中的推理和规划能力。
2024-12-24 11:16:29
1177
原创 突破短视频局限!MMBench 构建中长视频开放问答评测基准,全面评估多模态大模型视频理解能力
本文经量子位(公众号 ID: QbitAI)授权转载,作者:新宇GPT-4o 四月发布会掀起了视频理解的热潮,而开源领军者 Qwen2 也对视频毫不手软,在各个视频评测基准上狠狠秀了一把肌肉。,视频长度或视频镜头数不足,难以考察到模型的长时序理解能力;对模型的考察局限在部分较为简单的任务,;现有的基准仍可以仅凭单帧图像以获取较高的分数,说明;,打分和人类偏好有较大的偏差且并不准确,容易高估模型性能。针对这些问题,有没有对应的基准能够较好解决这些问题呢?
2024-12-23 15:19:40
1256
1
原创 顶会评测集解读-AlignBench: 大语言模型中文对齐基准
因此,该团队使用了三种相对先进的支持中文的 LLMs,包括 GPT-3.5-turbo、ChatGLM APIs 和 Sparkdesk,作为该团队构建流程中的难度过滤器。该团队设计了一个可持续的、包含人工参与的数据策划流程,并改进了LLM作为评判者(LLM-as-Judge)的方法,使AlignBench能够对LLMs的中文对齐进行高质量的自动评估。此外,基于规则的评分在解释方面优于一般评分,该结果证明了评分规则能够提供明确的基于参考的标准,从而有助于清晰地比较参考答案和模型答案。
2024-12-23 15:16:04
1585
原创 还在GPT-4o进行评测么?快来试试开源评价大模型CompassJudger
在进行主观评测的过程中,通常需要一个 Judge Model 来对待测模型的回复进行评分或比较,从而代替人类来进行这一评价工作,得到待测模型在各类主观题上的得分。过去,这往往是由能力较强的闭源模型如 GPT4 来进行的,GPT4 也因此成为了在 AlignBench,AlpacaEval,ArenaHard 等数据集上的标准评测模型。然而,在科学研究和模型迭代的过程中,往往需要进行大规模的评测,而使用闭源模型的成本非常高昂。
2024-10-23 10:52:45
849
原创 CaLM 因果推理评测体系:如何让大模型更贴近人类认知水平?
因果发现旨在从数据或语义中推测出潜在的因果结构,关联探索数据间的统计依赖关系,干预预测有意改变环境中的变量所带来的影响,以及反事实则对假设的替代场景进行推理。针对模型、提示词以及因果场景,CaLM 中分别设置了不同的评估标准,覆盖包括准确率、鲁棒性、理解度等 7 种,全面反映模型的因果推理能力和鲁棒性、提示词有效性。司南 OpenCompass 大模型能力评测体系将持续与业界共同推进大模型在因果推理领域的评估工作,携手构建一个开放、公平、透明的大语言模型评估体系,促进大语言模型技术的健康发展和持续创新。
2024-09-24 14:24:09
1610
原创 司南 OpenCompass 九月大语言模型评测榜单启动召集,欢迎新合作厂商申请评测
司南 OpenCompass 大语言模型官方自建评测榜单,综合评估商业 API 模型和开源模型在 语言、推理、知识、代码、数学、指令跟随、智能体七大能力维度,这七个维度可以被进一步细分为包括自然语言处理、理工科知识、常识推理、数值计算能力、代码续写、算法面试、高等数学、通用工具调用等十余项细分任务,力图对行业开源模型和商业 API 模型进行全面评测分析。,面向大模型能力评测开源开放的基准社区,提供海量的面向不同能力维度和行业场景的评测基准。
2024-09-20 17:09:11
1262
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅