司南发布“以人为本”的大模型评测体系，认知科学驱动，更贴近人类需求

最新推荐文章于 2025-12-01 19:45:15 发布

原创

最新推荐文章于 2025-12-01 19:45:15 发布 · 917 阅读

·

11

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#人工智能 #大模型评测 #大模型 #大语言模型 #多模态大模型

2月22日，2025GDC“浦江AI生态论坛”在上海徐汇举行。论坛现场，大模型开放评测平台司南正式发布“以人为本”（Human-Centric Eval）的大模型评测体系，系统评估大模型能力对人类社会的实际价值，为人工智能应用更贴近人类需求，提供可量化的人本评估标注

司南团队突破性引入认知科学理论，秉持“以人为本”的核心精神，提出“解决问题能力、信息质量、交互体验”三维度的大模型主观评测体系。通过构建真实场景任务链与人机协同解决方案，最终由人类对模型辅助能力进行感知评分，从而实现技术指标与人文价值的有机统一。

该评测体系将于3月5日上线司南大模型竞技场，欢迎体验。

评测入口：https://opencompass.org.cn

认知科学驱动：从技术性能到人文价值

随着大模型等AI技术的飞速演进，各类AI技术已日渐融入人类生活场景，如何让AI更贴近人类需求，成为新阶段大模型能力提升的关键之一。司南团队认为，大模型最终要服务于人，因此“以人为本”的主观评估范式，将有效反映大模型的真正价值。

在传统的大模型基准测试中，普遍采用结果导向的评价标准，这种评价方式虽然能够直观地反映模型的性能，却忽略了人类的实际需求。在司南团队提出的评测方案中，从人类需求设计实际问题，让人与大模型协作解决，再由人类对模型的辅助能力进行主观评分，以此补充客观评价的不足，使评估更贴合人类感知。

“以人为本”的评测体系将人类感知与数据反馈互补，实现技术指标与人文价值的有机统一

其中“认知科学驱动”评估框架，围绕解决问题能力、信息质量、交互体验

最低0.47元/天解锁文章

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。