AGI-Eval大模型评测-优快云博客

原创 AI 巅峰对决：GPT、Qwen 领衔五子棋与德扑，Claude 竟未进前三？

我们提出了一个迭代式的、基于伙伴学习的竞争性评测框架；推出了 CATArena 这一包含多样化、开放式游戏的评测基准；并设计了一套全面的评测矩阵，从而对智能体的核心能力进行可靠、稳定且可扩展的评估。CATArena 的远景不止于此，未来，计划补齐国际象棋与桥牌，在现有四大经典博弈场景的基础上，CATArena 的竞技场将进一步延伸至算法竞赛代码优化、工程代码优化等更为复杂的编程任务中。我们坚信，通过构建这样一个动态、开放、可扩展的竞技平台，我们能够更科学、更持续地衡量 AI 真正的核心能力——学习力。

2025-12-22 18:14:07 836

原创 AGI-Eval 实测：NanoBanana Pro 综合实力稳居第一梯队，图像编辑进入精细化时代

反之，FLUX.1-Kontext Pro 在此维度的 Winrate 仅为 37.0%，是所有模型中最低的，这也直接影响了其最终的综合判断表现。Qwen (41.3%) 和 FLUX.1-Kontext Pro (39.5%) 的 Winrate 则低于 50%，这说明在本次“综合判断”的较量中，它们面对基准模型时，落败的次数多于获胜的次数，整体表现相对较弱。Prompt6：帮我生成一幅海底世界的图片，其中有色彩斑斓的珊瑚礁群，一只优雅的海龟在珊瑚间穿行，艺术风格与我提供的图片一致。

2025-12-11 11:39:08 1010

原创 Gemini 3 Pro登顶AMO-Bench：大模型数学推理正迈向高效率新阶段

AMO-Bench 的发布及其评测结果，为行业提供了一个观察大模型数学推理能力边界的窗口。从评测数据来看，Gemini 3 Pro 的 63.1% 确立了新的性能基准，而Kimi-K2-Thinking 则展现了国产模型的惊人追赶速度。但值得注意的是，SOTA 模型仍有近 40% 的题目未能稳定解决，这表明复杂数学推理依然是当前 AI 技术亟待攻坚的深水区。

2025-12-02 11:57:37 1006

原创 AGI-Eval 评测框架开源，让每个人都能轻松开启评测

AGI-Eval是一款灵活可扩展的大模型评测框架，支持20+公开数据集评测和自定义插件开发。其插件化架构允许自由组合评测流程，提供单机调试到多进程并行的运行模式，并内置Web报告功能进行结果分析。框架已开源，包含专用打分模型AGI-Eval-OA-Judge，未来计划实现评测任务统一管理和Agent数据集支持。该项目旨在推动建立透明公正的大模型评测标准，欢迎开发者共同参与生态建设。

2025-11-21 14:47:28 465

原创 AGI-Eval 评测框架开源，让每个人都能轻松开启评测

AGI-Eval是一款灵活可扩展的大模型评测框架，支持20+公开数据集和多种运行模式。其插件化架构允许自由组合评测流程，并提供可视化报告分析模型表现。框架内置专用打分模型AGI-Eval-OA-Judge，支持开发者自定义数据集和评测流程。未来计划实现评测任务统一管理、Agent数据集接入等功能，致力于构建透明公正的大模型评测标准。该项目已开源，欢迎社区共同参与完善AI评测生态。

2025-11-21 14:40:53 748

原创【无标题】

通过本轮评测，可以明确看到可灵系列在国产模型中持续领跑，稳居文生视频第一梯队前列。从早期版本到最新推出的可灵2.5 Turbo，它不仅保持了一贯优秀的视频清晰度，还针对用户需求不断完善情境理解和动态渲染功能。在实际使用中，无论是广告营销还是教育培训，展现出较大的商业化潜力。另一方面，作为海外阵营代表之一，Sora2 尽管综合表现稍逊于头部国产模型，却也展现出了自身独特竞争优势。例如它对于语义指令执行过程中的创造性解读，以及富有艺术张力的视频输出，都让人眼前一亮。

2025-11-12 12:23:24 1037

原创美团 LongCat 团队发布 VitaBench：基于复杂生活场景的交互式 Agent 评测基准

美团LongCat团队发布VitaBench智能体评测基准，聚焦外卖、餐饮、旅游三大真实生活场景。该基准包含66个工具构成的交互环境，通过深度推理、工具使用和用户交互三个维度量化任务复杂度。实验显示，即使是先进模型在跨场景任务中的成功率仅30%，暴露出与真实应用需求的显著差距。VitaBench采用创新评估方法，如基于Rubric的滑动窗口评估器，为智能体研发提供更精准的评测工具。目前该基准已开源，包含400项任务和详细实验数据，旨在推动智能体在复杂生活场景中的实用化发展。

2025-10-22 13:55:04 852

原创多模态模型开箱评测：阿里Qwen3-Omni“原生全模态”的理想与现实

阿里巴巴发布新一代原生全模态大模型Qwen3-Omni，其宣称在多项音视频基准测试中达到了SOTA（State-of-the-Art）水平，引发业界广泛关注。该模型的技术亮点在于其“原生全模态”架构，与传统的“模块化”设计不同，它旨在从一开始就构建一个能同时“看、听、说”的统一系统。为探究其在真实交互场景下的能力，AGI-Eval大模型评测社区对其展开了专项评测。根据 AGI-Eval 的评测结论显示，Qwen3-Omni 的自然流畅度平均分较低，综合表现稍显逊色，尤其在交互与认知等核心维度上存在不足。

2025-10-13 17:16:13 498

原创全球文生图AI模型格局生变！Seedream4.0问鼎，深度解锁其三大核心突破

如上图所示，Seedream 4.0 与 GPT-4o 在此维度上表现尤为突出，得分领先，构成了断档式的领先阵营，相比之下，一些传统上以图像美学见长的模型，如 Midjourney 6.1，在字符生成上的表现则相对落后，其得分在所有参评模型中处于较低水平，反映出不同模型在技术演进路径上的能力侧重差异。为了得到符合用户主观感受的评估结果，评测社区对各模型在人工评测数据上进行了 5 档 MOS 分的人工评测，各模型得分归一化后的分值，如下图所示，为 AGI-Eval 社区最新的文生图模型人工评测榜单。

2025-10-13 14:46:53 699

原创 AI学术助手为何总在“翻车”？评测基准ScholarSearch为你揭秘 | AGI-Eval 独家托管

看到 AI 在 ScholarSearch 里表现拉胯，你可能会觉得 “AI 也不过如此”。但换个角度想：正因为有了这样严苛的基准，AI 的进步才有了明确方向。或许 AI 考得差，反而是好事。ScholarSearch 的意义，远不止于“难住 AI”。它更像一个路标，告诉我们 AI 要成为真正的“学术助手”，下一步该往哪走：一个真正的研究模型必须超越简单的信息检索，还需要整合复杂的综合技术、上下文理解以及确保答案准确性的机制。ScholarSearch 给 AI 的“学术能力”立了一把尺子。

2025-09-03 10:35:06 1030

原创全球首个语音合成图灵测试重磅发布！揭秘AI能否用语音骗过人类？

语音合成图灵测试框架包含一个标准化的人类评估协议，并配套建设了专用数据集——ATT-Corpus，旨在解决当前语音合成评估中缺乏统一评估标准、不同系统难以公平对比的问题。为实现更全面的能力评估，专用数据集（ATT-Corpus）在设计时覆盖了多维度能力，能够帮助分析和揭示不同 TTS（语音合成）系统之间的具体能力差异，不仅关注整体表现，还关注细分技能表现。

2025-08-27 10:22:47 1027

原创全球最听话模型大排名！o3-mini夺冠，DeepSeek-R1仅第七

具备更强推理能力的模型（如 Claude-3.7-Sonnet-thinking）与其对应的标准版本（Claude-3.7-Sonnet）在指令遵循能力上的差距，会随着纠错轮次的增加而逐渐缩小，这表明反馈机制可以在一定程度上代替了 RLLMs 的长思维链带来的效益，有效地让模型逐渐达到自身指令遵循能力的上限。在该模式下，如果模型的第一轮回答未能完全满足所有指令，评测框架会自动生成明确的反馈，指出具体哪个指令项未被满足，并要求模型根据该反馈修正答案。这是最精细的评测层面，关注那些极易被模型忽略的细节规则。

2025-08-19 15:51:15 973

原创全球DeepResearch产品大比拼！Gemini、OpenAI霸榜，Kimi和豆包前五

本研究深入分析了当前大语言模型智能体评估中存在的困境，并提出了首个面向深度研究场景的综合评估基准——。通过基于真实用户需求构建的 100 项高质量任务，以及创新的RACE和FACT评估框架，研究人员系统性地揭示了当前顶尖智能体的能力图谱。评测结果表明，不同智能体在能力上存在显著的权衡，例如，Gemini在报告的信息丰富度上领先，而Perplexity和OpenAI的智能体则在引用精确度上更具优势，同时，Claude 3.7等通用模型的强大竞争力也为领域发展带来了新的启示。

2025-08-18 14:21:19 1492

原创六大Agent产品大比拼！扣子空间凭国产模型跻身Agent第一梯队

从本期的实测案例可以看出，各 Agent 产品在不同任务类型上展现出了差异化的能力特征。在文件与数据处理方面，扣子空间表现突出；而在软件开发、信息检索和 GUI 操作等任务上，各产品则各有长短，这反映出当前 Agent 整体仍处于从“可用”向“好用”发展的关键阶段。本次评测揭示了产品背后的决策模型的通用能力是决定 Agent 应用上限的关键因素。扣子空间基于 Seed1.6 模型实现的性能跃升，便是最直观的例证。

2025-08-06 15:49:16 1463

原创 AI画图越来越逼真，却当不好图像质检员｜AGI-Eval独家托管A-Bench

当下，文生图 AI 正处于"能用"与"好用"的过渡地带。指令遵循能力与画质表现，将是其向工业化应用迈进过程中的两大核心命题。例如下图测试案例进一步印证了这一研究的必要性：左侧图像在处理"秋日小镇里，复古马车行驶在铺满落叶的街道上"时出现建筑比例失调、空间构图混乱等明显缺陷；右侧的"波普风女性肖像"则暴露出五官比例异常、色彩搭配杂乱等质量问题。业界虽然开始广泛采用多模态大模型作为 AI 图像的自动化评估工具，但这些"智能裁判"的判断准确性却鲜有人深究。

2025-08-04 10:58:09 1073

原创全球大模型编程评测！工程能力才是关键，别被「刷榜成绩」骗了

的构建与应用，旨在为大语言模型的代码能力评估提供一把更科学、更全面、更贴近真实的“工程标尺”。回顾我们的研究，我们系统性地揭示了当前顶尖 LLM 在真实工程场景中的核心短板：无论是多么先进的模型，都在逻辑错误修复方面步履维艰；在面对多函数协同任务时，其跨函数推理与规划能力都显得捉襟见肘；并且，它们普遍缺乏人类工程师所具备的灵活规划与分层推理能力。然而，这些被揭示的局限性并非技术的终点，而是为下一代大语言模型的发展指明了清晰的优化方向。

2025-07-31 17:26:37 1278

原创全球大模型真实编程能力大摸底！评测新标准揭秘模型能力虚胖真相

基于此数据集，我们对全球 18 个主流大模型的算法编程能力进行了系统评测并量化得分，详细评分榜单如下所示，可以看到全球顶尖大模型距离以往所宣称的编程能力还存在很大差距，哪怕是最高分的 o4-mini-high 也仅仅只有 36.35 分，距离人类竞赛选手的水平还相差甚远，甚至很多模型只有个位数的得分。例如，在其他榜单上表现较好的 GPT-4o 模型在 OIBench 上仅能答对 2.6% 的题目，同时 OIBench 的测试用例数量大幅超过了其他算法竞赛基准，对标真实的竞赛环境。

2025-07-28 11:38:26 835

原创全球文生图AI模型大比拼！Dreamina 3.0超越GPT-4o登顶，国产AI崛起

结果显示，以 Dreamina 3.0 、 Halfmoon 、GPT-4o 为代表的模型已构成行业领先梯队，在图文理解、图像生成质量等方面表现卓越。值得关注的，是那些“超预期”的亮点：Dreamina 3.0 在图文一致性上的“精准控场”，GPT-4o 在字符生成上的惊艳表现，Halfmoon 在多图任务里的稳定输出……人物文生图，GPT-4o、Dreamina 3.0 生成的图片在光影等美学维度表现较好，但 GPT-4o 生成的人物面部出现严重的畸形，Dreamina 3.0 的人物表情相对自然。

2025-07-24 17:12:45 2260

原创全球图生视频AI模型排名出炉！Seedance 1.0夺冠，Gen4垫底

我们不仅见证了多模态图生视频技术的突破性进展，更欣喜地看到国产模型已在这场技术竞赛中领跑全球——从评测榜单可见，Seedance 1.0、PixVerse V4 等国产模型以显著优势霸榜，而 Pika 2.2、Gen4 这类海外模型则遗憾垫底，国产图生视频技术已实现从“跟跑”到“领跑”的跨越。风的流速、重力的牵引、肌肉的舒展……这些人类习以为常的“常识”，恰恰是 AI 最难跨越的。从这场多模态图生视频的评测结果可见，国产图生视频模型展现出了显著的技术优势，整体表现已超越海外模型，引领着该领域的发展。

2025-07-22 14:51:22 2425

原创学霸o1打不过人气王Yi-Lightning？揭秘竞技场逆序之谜

整体而言，这种综合性的评估策略将有助于弥合当前评估体系中的认知鸿沟，促进人工智能模型在“智能”与“情感”两个维度实现更加均衡、协调的发展，最终推动 LLM 技术更好地服务于多样化的真实世界需求。相比之下，用户对“语言通顺性”及“语言生动性”等表层语言特征的判断一致性最高，导致“准确性”在用户评价中的重要性被降低。本次研究深入揭示了专业评估榜单与用户偏好榜单之间存在逆序现象的复杂原因，主要归结于模型回答的风格与格式偏好、评估场景中数据分布的错位，以及专业评估者与真实用户在评判标准上的差异。

2025-07-02 16:12:50 644

原创全球实时语音交互AI产品大比拼!阶跃AI和豆包问鼎,超越GPT-4o

本评测方案旨在。

2025-06-25 11:26:45 3058

原创新版 DeepSeek-R1 实测，我们发现了这些没写在宣传页的细节

但鉴于世界时区体系包含 24 个时区，该测评项要求以不同时区典型城市为例展示当前时间，实际呈现的时区对应城市数量不足，存在内容缺失情况，未能构建完整覆盖的世界时钟信息体系，且存在事实性错误，将迪拜的时区划分在亚洲时区里，未完全满足测评设定的需求标准。生成的代码结构完整，耗时较长，能够生成完整的前端演示文稿代码和6张幻灯片，涵盖产品介绍、市场分析、功能特性、评测体系和模型对比等模块，产品介绍模块与官网内容相符，视觉设计新颖抓眼球，具备基础的用户交互能力，满足评测标准。的真实能力已有所了解。

2025-06-24 10:45:09 1242

原创 Manus、Genspark、Coze空间、Minimax横评，谁是最强Agent？

Minimax（深度）擅长信息检索、软件开发、文件和数据处理类任务，在信息检索场景中，Minimax（深度）会主动增加信息来源链接，增强检索召回的置信度，在交付网页等Coding场景中，Minimax（深度）的网站架构更成熟，主动增加搜索、筛选等功能，并通过多次的有效测试和Debug来提高网站的可用性；Minimax（深度）在多模态展示测评中获 3 分评级，运用动态渲染与语义聚合技术，完成展品名称、图像、文字及语音的全要素呈现，时间线准确覆盖唐代，内容完整性与时空信息准确性均符合专业展示标准。

2025-06-13 10:32:30 2014

原创【AGI-Eval实测】Claude 4 网页生成、游戏开发场景深度实测：发布会宣传与真实效果相差几何？

近日，Claude 4 系列模型正式推出， Anthropic 宣称，Claude Opus 4 是全球最佳编码模型，在复杂、长期运行的任务和代理工作流中表现持续优异。Claude 4 的双子星：Claude Opus 4 和 Claude Sonnet 4 是否达到了发布会的预期效果？对比此前发布的高性能混合模型 DeepSeek-v3 ，又有何新进展？AGI-Eval评测社区第一时间做了对比实测，下滑查看！目录：01. Claude4 模型简介02. Claude 4 实测核心结论。

2025-06-11 11:34:30 835

原创 AGI-Eval托管UGMathBench：数学推理评估从「浅层解题」迈向「深层理解」

数学推理能力作为衡量模型智能水平的关键指标，需对其进行全面公平的评估。然而，现有的 GSM8K、MATH 数学基准因覆盖不足和易被数据污染饱受诟病，要么缺乏对本科水平数学问题的广泛覆盖，要么可能受到测试集的污染。为了填补这些空白，来自香港科技大学的研究团队近日发表在 ICLR 2025的最新研究 UGMathBench——首个针对本科数学的多元化动态评测体系，专为评估 LLM 在本科阶段各类数学主题下的推理能力而设计。它提供了动态多样的评估工具，首次将数学推理评测带入「动态污染防控」时代，。

2025-06-10 10:02:35 654

原创【AGI-Eval评测报告】混元图像2.0模型开箱评测，模型实测效果大放送！

prompt 9：用很多朵红玫瑰编织而成的上海武康大楼，这是一座建在30°锐角的路口上，楼身狭长像一艘轮船，采用法国文艺复兴式建筑风格，墙上有一个LED屏，展示腾讯混元图像 2.0 模型的字样，街道上很多行人，敞篷跑车在等红绿灯，背景是上海的老建筑，天空格外晴朗，能看到太阳光。春天，温暖的室内，一只布偶猫蹲在窗户旁看外面的阳光，凝视着窗户外洒落的阳光，接着又有一只无毛猫跳了上来，它们俩没有对视，挨着一起，看窗户外一只蓝色蝴蝶，在它们身后，是室内的茶几、茶杯、电视和沙发。说明模型对“数字”掌握的不好。

2025-05-23 10:26:09 995

空空如也

空空如也