2月22日,2025GDC“浦江AI生态论坛”在上海徐汇举行。论坛现场,大模型开放评测平台司南正式发布“以人为本”(Human-Centric Eval)的大模型评测体系,系统评估大模型能力对人类社会的实际价值,为人工智能应用更贴近人类需求,提供可量化的人本评估标注
司南团队突破性引入认知科学理论,秉持“以人为本”的核心精神,提出“解决问题能力、信息质量、交互体验”三维度的大模型主观评测体系。通过构建真实场景任务链与人机协同解决方案,最终由人类对模型辅助能力进行感知评分,从而实现技术指标与人文价值的有机统一。
该评测体系将于3月5日上线司南大模型竞技场,欢迎体验。
评测入口:https://opencompass.org.cn
认知科学驱动:从技术性能到人文价值
随着大模型等AI技术的飞速演进,各类AI技术已日渐融入人类生活场景,如何让AI更贴近人类需求,成为新阶段大模型能力提升的关键之一。司南团队认为,大模型最终要服务于人,因此“以人为本”的主观评估范式,将有效反映大模型的真正价值。
在传统的大模型基准测试中,普遍采用结果导向的评价标准,这种评价方式虽然能够直观地反映模型的性能,却忽略了人类的实际需求。在司南团队提出的评测方案中,从人类需求设计实际问题,让人与大模型协作解决,再由人类对模型的辅助能力进行主观评分,以此补充客观评价的不足,使评估更贴合人类感知。

“以人为本”的评测体系将人类感知与数据反馈互补,实现技术指标与人文价值的有机统一
其中“认知科学驱动”评估框架,围绕解决问题能力、信息质量、交互体验

最低0.47元/天 解锁文章
2376

被折叠的 条评论
为什么被折叠?



