评测数据集
文章平均质量分 82
司南评测
公众号:司南评测体系,致力构建透明、准确的大模型开源评测体系
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
每日 AI 评测速递来啦(12.1)
系统评估多模态大模型在视觉场景下结构化输出能力的基准,覆盖四大视觉领域,包括 UI 界面、自然图像、文档以及图表,由超过 6,500 个多样化的 JSON 模式和 1,800 个人工精挑细选、质量经人工验证的图像-模式配对构成。首个面向 AI 生成图像检测的推理增强多模态基准,通过多轻量级专家模型构建证据链,记录逐步推理轨迹与论证,实现可验证、可解释的取证评估。一个专为评估医疗多模态大模型多图像理解与复合推理能力而构建的高质量基准。司南·Daily Benchmark 专区今日上新!原创 2025-12-01 18:54:03 · 424 阅读 · 0 评论 -
AI评测趋势一站速览,司南Daily Benchmark专区上线!
作为司南评测体系的重要组成部分,司南评测集社区 CompassHub 致力于打造创新性的基准测试资源导航社区,提供丰富、及时、专业的评测集信息,让研究者与开发者轻松查找、分享与使用各类基准,共同探索 AI 技术的真实能力边界。为了让大家第一时间掌握 AI 评测最新趋势,司南评测集社区全新推出 「Daily Benchmark」专区,带你直观了解最新 AI 评测论文,洞悉模型能力演进趋势。无论你是想追踪全球 AI 评测趋势的研究者,还是希望验证模型真实能力的开发者,司南评测集社区都将成为你的得力助手。原创 2025-11-13 18:59:48 · 347 阅读 · 0 评论 -
大模型科学认知评测基准SFE发布:16款主流MLLMs表现揭晓!
本文转载自机器之心当前,驱动科学研究的人工智能(AI for Science,AI4S)在单点取得了可观的进展,实现了工具层面的革新,然而要成为「革命的工具」,需要采用「通专融合 AGI」方式。大模型的突破性能力逐步改变科学研究的模式,而大模型在科学领域的深度应用亟需科学的评测支撑。现有科学评测面临着两大痛点:现有测试多聚焦知识记忆,而真实科研需要从原始科学数据感知到复杂推理的全链条能力;天文、地球、生命和材料等领域存在大量未开发的多模态数据分析需求。原创 2025-07-10 19:09:33 · 999 阅读 · 0 评论 -
6月前沿评测集一网打尽!多模态、智能体、代码领域全覆盖
MVPBench 专注于视觉物理推理中的视觉链式思维(CoT)能力评估。它特别关注模型能否像人类一样,依据图片一步步进行逻辑推理,而不是依赖文字提示直接得出结论。原创 2025-07-04 18:54:46 · 1206 阅读 · 0 评论 -
司南评测集社区 5 月上新一览
MedArabiQ 是一个用于评估阿拉伯语医学任务的基准测试,包含七个任务,涵盖多种问题格式:多项选择题、填空题(有选项和无选项)、患者-医生问答对。原创 2025-06-05 10:45:10 · 1209 阅读 · 0 评论 -
司南评测集社区 4 月上新一览
WorldScore 是用于世界生成的统一基准测试,包括一个精选数据集,其中包含 3000 个测试示例,包含静态和动态、室内和室外、逼真和风格化复杂的世界场景,并通过可控性、质量和动态性这三个关键方面评估生成的世界。原创 2025-04-30 14:10:26 · 825 阅读 · 0 评论 -
司南评测集社区 3 月上新一览!
MiLiC-Eval 是针对中国少数民族语言的 NLP 评估套件,涵盖藏语(bo)、维吾尔语(ug)、哈萨克语(kk,哈萨克阿拉伯语)和蒙古语(mn,传统蒙古语)。原创 2025-04-02 17:17:01 · 1113 阅读 · 0 评论 -
司南评测集社区 2 月上新一览!
KITAB-Bench是一个全面多领域阿拉伯文 OCR 和文档理解基准,包含 36 个子领域,超过 8,809 个样本,经过精心挑选,以严格评估阿拉伯文 OCR 和文档分析所需的基本技能,研究表明现代视觉-语言模型(如 GPT-4、Gemini 和 Qwen)在字符错误率(CER)方面比传统 OCR 方法(如 EasyOCR、PaddleOCR 和 Surya)平均高出 60%, 领先模型 Gemini-2.0-Flash 也仅达到 65% 的准确率,体现了在准确识别阿拉伯语文本方面的挑战。原创 2025-03-12 20:25:45 · 1178 阅读 · 0 评论 -
视频生成模型权威评测基准VBench上线司南评测集社区
VBench 不仅包含了 16 个分层和解耦的评测维度,确保了评估的全面性和细致度,还通过贴近人类感知的评测方法,提高了评估结果的真实性和可靠性。最新发布的 VBench++ 支持更广泛的视频生成任务,包括文本生成视频和图像生成视频,并配有一套自适应的图像套件,以便在不同的设置下进行公平评估。,榜单内容多次被知名视频模型厂商、头部科技媒体引用,能否在 VBench 榜单上名列前茅,已成为衡量视频生成模型性能的重要参考标准,深刻影响着行业的技术发展方向和产品研发策略。VBench 榜单目前已经成为。原创 2025-02-27 14:23:51 · 1794 阅读 · 0 评论 -
司南 OpenCompass 5 月榜单揭晓,全新大模型对战榜单首次登场
司南 OpenCompass 团队针对国内外主流大语言模型进行了全面评测,现已公布 2024 年 5 月大语言模型最新评测榜单!与此同时,CompassArena 大模型对战榜单 也于今日首次重磅上线!原创 2024-07-31 14:42:12 · 2236 阅读 · 0 评论 -
GPT-4o的数学又双叕进步了?来MathBench看看新版GPT-4o到底强在哪
数学推理和问题解决是人类智力的重要方面,几十年来也一直是人工智能(AI)领域研究的重点以及大模型的兵家必争之地。机器对数学问题的理解、解释和解决能力不仅是其认知能力的标杆,还在其各个领域的应用中发挥着关键作用。因为模型的数学能力强,往往代表了模型具有更强的推理和知识整合能力,也能更好的完成其他任务。随着现代大型语言模型(LLMs)如OpenAI的ChatGPT和GPT-4的出现,LLMs展示了生成类人对话和解决复杂数学难题的非凡能力。原创 2024-07-31 14:33:34 · 1707 阅读 · 0 评论 -
MedBench迭代升级,找出最合格的“医学生”
MedBench医疗大模型评测平台进行了全面升级,丰富了评测参评方式,新增API评测,同时优化了开放域问答(Open-domain question answer)的评估指标,通过医学专家标注答题点,进一步确保了评测结果的公平性和专业性。此外,平台在评测数据集、评测方法以及系统功能方面也进行了相应的升级,致力于为医疗大模型评测构建更健全的社区环境,并提供更为丰富、真实的实践场景。原创 2024-07-30 13:24:35 · 1846 阅读 · 0 评论
分享