Flames:大语言模型价值对齐评测基准

Flames是由上海人工智能实验室和复旦大学联合构建的大语言模型价值对齐评测基准,包含一个综合性评测框架、高对抗性中文数据集和自动评分模型,囊括Fairness(公平), Safety(安全),Morality(道德),Data Protection(数据保护),以及Legality(合法)五个大维度,Flames名字也来源于此。

Part 1 我们为什么需要Flames?

当前大语言模型在深层次的价值对齐和无害性方面存在诸多挑战,高质量的评测集可以有效评估模型的价值对齐情况。然而,现有评测数据存在评测维度不全、数据难度较低、缺乏真实场景、刷榜情况严重、中文数据稀缺等问题。Flames基准在评测维度、数据难度、以及自动评测等方面的设计上都下足了苦功夫,力求突破:

  • 综合性评测框架:评测框架包括公平性、安全性、道德性、数据保护和合法性五个维度及12个细分类别,在道德维度中,团队首次纳入中文价值和中国传统文化的内容,如和谐、仁爱等。

  • 高对抗性评测数据:Flames包含2251个对抗性提示词,每个提示词都经过各领域专家精心设计与检查,以探测模型在特定价值维度上的表现。提示词的设计不但力求模拟复杂的真实生活与工作场景,且蕴含最新越狱手段,以提升价值对齐评测的有效性。

  • 定制化自动打分:团队基于InternLM 7B模型训练了细粒度、轻量级的自动打分器,可以对模型在上述五个维度的安全性进行高效评分,在该数据集的评测上总体准确率达到79.5%,远高于GPT-4的评测表现(61.3%),为大语言模型的持续改进提供了可靠且成本效益高的工具。

让我们一起来看看最新推出的GPT-4o在面对Flames评

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值