Measuring Social Norms of Large Language Models

本文是LLM系列文章,针对《Measuring Social Norms of Large Language Models》的翻译。

摘要

我们提出了一个新的挑战,即检验大型语言模型是否理解社会规范。与现有的数据集相比,我们的数据集需要对社会规范有基本的了解才能解决。我们的数据集包含了最大的一组社会规范技能,包括402项技能和12383个问题,涵盖了从意见和论点到文化和法律的广泛社会规范。我们根据K-12课程设计我们的数据集。这使得能够将大型语言模型的社会理解与人类,更具体地说,与小学生进行直接比较。虽然之前的工作在我们的基准测试中产生了近乎随机的准确性,但最近的大型语言模型,如GPT3.5-Turbo和LLaMA2 Chat,能够显著提高性能,仅略低于人类的性能。然后,我们提出了一种基于大型语言模型的多智能体框架,以提高模型理解社会规范的能力。这种方法进一步改进了大型语言模型,使其与人类相当。鉴于大型语言模型在现实世界中的应用越来越多,我们的发现尤为重要,并为未来的改进提供了独特的方向。

1 引言

2 社交框架

3 SocialAgent方法

4 实验

5 相关工作

6 结论

我们引入了一个新的基准来检验LLM对社会规范的理解。我们的数据集拥有最大的技能集,重点关注社会规范的基本原理。我们在我们的数据集上评估

### 数据集和度量标准 对于评估开放性语言生成中的偏见,多个数据集和度量已经被开发出来以确保模型输出的公平性和无偏性。具体来说: #### 常用的数据集 为了检测不同类型的偏差,研究人员创建了专门针对这一目的设计的数据集。例如,Winogender Corpus 是一种广泛使用的资源,它包含了性别刻板印象的例子[^1]。另一个例子是 StereoSet,该数据集中含有涉及职业、外貌等多个维度的社会群体描述,旨在测试模型是否会强化负面或不准确的社会成见。 #### 度量标准 衡量偏见的程度通常依赖于一系列定量分析工具和技术。其中一些方法包括但不限于: - **Demographic Parity (DP)**:此度量关注的是特定属性组之间的分布差异,比如性别或种族,在给定条件下产生的概率应该相等。 - **Equal Opportunity Difference (EOD)**:这种度量侧重于正类别的条件独立性,即如果两个个体属于不同的受保护类别但在其他方面相同,则他们获得有利结果的机会应该是相同的。 - **Disparate Impact (DI)**:这是一种统计学上的概念,用来识别是否存在不成比例的影响,特别是在就业等领域中可能存在的间接歧视现象。 除了上述传统机器学习领域内的评价指标之外,还有一些专门为自然语言处理定制的新颖方案被提出。例如,通过计算某些敏感词出现频率的变化来量化潜在的文化倾向;或者利用对抗验证框架自动发现并修正隐藏模式下的不公平待遇。 ```python def calculate_demographic_parity(predictions, protected_attribute): """ 计算人口统计学平等. 参数: predictions (list): 模型预测的结果列表. protected_attribute (list): 受保护特征对应的标签列表. 返回: float: DP值. """ from collections import Counter pred_by_group = {} for pred, attr in zip(predictions, protected_attribute): if attr not in pred_by_group: pred_by_group[attr] = [] pred_by_group[attr].append(pred) group_counts = {k: sum(v)/len(v) for k, v in pred_by_group.items()} max_count = max(group_counts.values()) min_count = min(group_counts.values()) return abs(max_count - min_count) # 使用样例 predictions = ['positive', 'negative', ... ] # 替换为实际预测结果 protected_attributes = ['male', 'female', ... ] # 替换为对应的人口统计数据 dp_value = calculate_demographic_parity(predictions, protected_attributes) print(f'Demographic parity value is {dp_value:.4f}') ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值