司南发布“以人为本”的大模型评测体系,认知科学驱动,更贴近人类需求

2月22日,2025GDC“浦江AI生态论坛”在上海徐汇举行。论坛现场,大模型开放评测平台司南正式发布“以人为本”(Human-Centric Eval)的大模型评测体系,系统评估大模型能力对人类社会的实际价值,为人工智能应用更贴近人类需求,提供可量化的人本评估标注

司南团队突破性引入认知科学理论,秉持“以人为本”的核心精神,提出“解决问题能力、信息质量、交互体验”三维度的大模型主观评测体系。通过构建真实场景任务链与人机协同解决方案,最终由人类对模型辅助能力进行感知评分,从而实现技术指标与人文价值的有机统一。

该评测体系将于3月5日上线司南大模型竞技场,欢迎体验。

评测入口:https://opencompass.org.cn

认知科学驱动:从技术性能到人文价值

随着大模型等AI技术的飞速演进,各类AI技术已日渐融入人类生活场景,如何让AI更贴近人类需求,成为新阶段大模型能力提升的关键之一。司南团队认为,大模型最终要服务于人,因此“以人为本”的主观评估范式,将有效反映大模型的真正价值。

在传统的大模型基准测试中,普遍采用结果导向的评价标准,这种评价方式虽然能够直观地反映模型的性能,却忽略了人类的实际需求。在司南团队提出的评测方案中,从人类需求设计实际问题,让人与大模型协作解决,再由人类对模型的辅助能力进行主观评分,以此补充客观评价的不足,使评估更贴合人类感知。

图片

“以人为本”的评测体系将人类感知与数据反馈互补,实现技术指标与人文价值的有机统一

其中“认知科学驱动”评估框架,围绕解决问题能力、信息质量、交互体验

### 使用本地大规模语言模型司南进行评测 #### 配置环境与准备 为了使用本地部署的大规模语言模型(如司南)进行评估,需先完成必要的配置工作。这涉及安装所需软件包以及设置运行环境。确保已准备好所需的硬件资源和支持的计算平台。 ```bash pip install opencompass # 安装OpenCompass库 ``` #### 创建评估项目结构 建立合理的文件夹架构来管理不同的组件,包括但不限于: - `config/`:存储所有的配置文件。 - `datasets/`:放置待测的数据集。 - `models/`:存放预训练好的模型权重或其他必要参数。 - `results/`:保存最终生成的结果文档。 #### 编写配置文件 编写JSON或YAML格式的配置文件以指定具体的评估选项。此步骤决定了哪些模型将被测试、采用何种数据源以及期望得到怎样的输出形式等细节[^3]。 ```json { "model": { "name": "snnan", "path": "./models/snnan" }, "dataset": [ {"type": "math", "file": "./datasets/math_problems.json"}, {"type": "coding", "file": "./datasets/code_samples.py"} ], "output_dir": "./results/" } ``` #### 执行推理与评估流程 通过命令行工具启动评估进程,此时系统会依据之前设定的内容自动处理各项任务,并行地对选定的模型和数据集实施推理操作,随后进入正式的评分环节。 ```bash opencompass evaluate --config ./config/evaluation_config.yaml ``` #### 结果分析与展示 当所有运算结束后,程序自动生成易于解析的日志记录及统计图表,帮助直观理解各方面的表现情况。除了基本的文字描述外,还可能附带图形化的总结材料以便清晰地传达信息。 ```python import pandas as pd df = pd.read_csv('./results/performance_report.csv') print(df.head()) ```
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值